资讯详情

【读点论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(ViT)像处理...

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

abstract

  • 虽然Transformer系统结构已成为自然语言处理任务的代表性工作成果,但其在计算机视觉中的应用仍然有限。在视觉上,,同时保持其整体结构不变。

  • 本文认为这是对的CNN的的,

  • 预训练并传输到多个中小型图像识别基准(ImageNet、CIFAR-100、VTAB等),Vision Transformer (ViT)与最先进的卷积网络相比,它取得了优异的效果,但训练所需的计算资源要少得多。

  • CV边界上也有很多文章transformer迁移到CV一般来说,这些文章可以分为两类:

    • 将self-attention机制与常见CNN架构
    • 用self-attention机制完全CNN。
  • 本文的工作亮点是尽可能多地NLP领域的transformer。但是NLP语言数据的处理是序列化的,CV中处理的图像数据是三维的(长、宽和channels)。

    • 所以需要一种方式。图像在本文的数据处理中被切割成patch,这些patch按一定顺序排列,就成了序列化数据。
  • 在实验中观察,;当数据集的规模扩大时,transformer模型的效果接近或超过一些SOTA结果。作者认为大规模训练可以鼓励transformer学到CNN拥有结构translation equivariance 和locality.

    • CNN有两种归纳偏置,一种是局部性(locality/two-dimensional neighborhood structure),也就是说,图片中相邻区域具有相似的特征;一种是平移不变形(translation equivariance),f(g(x))=g(f(x)) ,g代表卷积操作,f代表平移操作。当CNN有了以上两种归纳偏置,有很多先验信息,需要相对较少的数据来学习更好的模型
  • ViT是2020年Google团队提出的将军Transformer应用于图像分类模型,虽然不是第一篇文章transformer它应用于视觉任务论文,但因为(scalable,模型越大,效果越好。transformer在CV该领域应用的里程碑也引爆了后续的研究。

  • ViT原论文的核心结论是,当有足够的数据进行预训练时,ViT的表现就会超过CNN,突破transformer在下游任务中,缺乏归纳偏置的限制可以获得更好的迁移效果。

    • 论文:https://arxiv.org/abs/2010.11929v2
    • 跟着bryanyzhu学习:https://www.bilibili.com/video/BV15P4y137jb

INTRODUCTION

RELATED WORK

  • transformer是由Vaswani等人(2017)提出机器翻译,成为许多自然语言处理任务中最先进的方法。基于大规模transformer通常在大型语料库上进行预训练, (Devlin等人,2019年)使用去噪自我监督预训练任务GPT工作线使用语言建模作为训练任务(Radford等人,2018年;2019;布朗等人,2020年)。
  • 直接将自注意机制应用到图像上。因为像素的数量quadratic cost,这不能缩放到实际输入尺寸。因此,为了应用于图像处理环境transformer,以前尝试过几种类似的方法。
    • Parmar等人(2018)仅。这种局部多头点积自注意力模块可以完全卷积。
    • Sparse Transformers (Child等人,2019年)
    • 另一种衡量注意力的方法是将注意力应用于不同大小的块中(Weissenborn等人,2019),在极端情况下,只沿单轴应用注意力。
  • 这些特殊的注意力结构在计算机视觉任务中表现出了希望的结果,但在硬件加速器上有效地实现了复杂的工程。
  • 与本文最相关的是Cordonnier等人(2020)模型,该模型。这个模型非常相似ViT,然而,本文的工作进一步证明了大规模的预训练使普通人变得普通transformer与最先进的CNN竞争(甚至更好)。Cordonnier等人(2020)使用2 ×2像素的小块尺寸,这个
  • 人们对我也很感兴趣,比如增强图像分类的特征图,或者,例如,对象检测、视频处理、图像分类、无监督对象发现或统一文本视觉任务。
  • 另一个最近的相关模型是图像GPT (iGPT),在降低图像分辨率和颜色空间后transformer应用于图像像素。,在ImageNet最大精度为72%。
  • 本文的工作。使用额外的数据源可以在标准基准上取得最先进的结果。此外,孙等人(2017)研究过CNN性能与数据集模成比例;Djolonga等人(2020)对来自大规模数据集(如ImageNet-21k和JFT-300M)的CNN迁移学习进行了实证研究。本文也关注后两个数据集,但是训练transformer而不是先前工作中使用的基于ResNet的模型。

METHOD

EXPERIMENTS

  • 本文评估了ResNet、视觉transformer(ViT)和混合模型的表征学习能力。为了解每个模型的数据需求,本文在不同大小的数据集上进行预训练,并评估许多基准测试任务。。最后,本文进行了一个使用自我监督的小实验,并表明自我监督的ViT具有未来的希望。

  • SETUP

    • Datasets.
    • 本文还对19任务VTAB分类套件进行了评估。VTAB评估不同任务的低数据传输,每个任务使用1000个训练示例。任务分为三组:自然任务,如上述任务,宠物,CIFAR等。专业化的任务——医疗和卫星图像,以及结构化的任务——需要像定位这样的几何理解。
    • Model Variants.
      • 本文基于BERT 所用的ViT配置,如下表所示。“基本”和“大”模型直接采用了BERT的模型,本文添加更大的“巨大”模型。
        • Vision Transformer型号变体的详细信息。
      • 在下文中,本文使用简单的符号来表示模型大小和输入patch大小:例如,ViT-L/16表示具有16 × 16输入面片大小的“大”变体。请注意,transformer的序列长度与patch大小的平方成反比,因此patch大小越小的模型计算成本越高。
    • 对于基于卷积神经网络的模型,本文使用ResNet,但用Group Normalization(Wu & He,2018年)替换批归一化层(Ioffe和Szegedy,2015年),。这些修改改善了transfer,本文将修改后的模型称为“ResNet (BiT)”。
    • 对于混合图,本文将中间特征图以一个“像素”的块大小送入ViT。为了试验不同的序列长度,本文
      • (1)或者获取常规ResNet50的阶段4的输出
      • (2)或者移除阶段4,在阶段3中放置相同数量的层(保持总层数),并获取该扩展阶段3的输出。
    • 对于选项(2)导致4倍的序列长度,以及更昂贵的ViT型号。
    • Training & Fine-tuning.
      • 本文使用Adam训练所有模型,包括resnet,其中β1 = 0.9,β2 = 0.999,批量大小为4096,并应用0.1的高权重衰减,本文发现这对于所有模型的迁移都是有用的(与常见做法相比,在本文的设置中,Adam对于resnet的效果略好于SGD)。
      • 本文使用。对于微调,本文使用具有动量的SGD,批量为512。对于下表中的ImageNet结果,本文以更高的分辨率进行了微调:ViT-L/16为512,ViT-H/14为518,并且还使用了系数为0.9999的平均值。
    • Metrics.
      • 本文通过 few-shot or fine-tuning 精度来调整下游数据集的结果。微调精确度在对相应数据集进行微调后,捕捉每个模型的性能。通过求解将训练图像子集的(冻结)表示映射到 { − 1 , 1 } K \{-1,1\}^K { −1,1}K个目标向量的正则化最小二乘回归问题,获得了Few-shot精度。
      • 这个公式允许恢复封闭形式的精确解。虽然本文主要关注微调性能,但有时本文会使用线性少量采样精度进行快速即时评估,因为微调成本太高。
  • COMPARISON TO STATE OF THE ART

    • 首先将本文最大的模型型号ViT-H/14和ViT-L/16与目前其它工作文献中最先进的CNN进行比较。第一个比较点是Big Transfer(BiT),它用大ResNets执行监督迁移学习。第二个是Noisy Student,这是一个大规模的EfficientNet,使用ImageNet和JFT300M上的半监督学习进行训练,去除了标签。
    • 目前,“Noisy Student”在ImageNet上是最先进的,BiT-L 在这里提及的其他数据集上是最好的。所有模型都在TPUv3硬件上进行了训练,本文报告了对每个模型进行预训练所需的TPUv3内核天数,即用于训练的TPU v3内核数(每个芯片2个)乘以训练天数。
    • 下表显示了结果。在JFT-300M上预训练的较小的ViT-L/16模型在所有任务上都优于BiT-L(在同一数据集上预训练),同时需要少得多的计算资源来训练。更大的模型ViT-H/14进一步提高了性能,尤其是在更具挑战性的数据集上ImageNet、CIFAR-100和VTAB suite。
      • Comparison with state of the art on popular image classification benchmarks.
      • 本文报告三次微调运行的平均值和标准偏差。在JFT-300M数据集上预训练的Vision Transformer模型在所有数据集上都优于基于ResNet的基线,而预训练所需的计算资源却少得多。在较小的公共ImageNet-21k数据集上预训练的ViT也表现良好。表中的*号表示Touvron等人(2020年)报告的结果略有改善,为88.5%。
    • 有趣的是,与现有技术相比,。然而,本文注意到,,如训练计划、优化器、权重衰减等。本文提供了不同架构的性能与计算的对照研究。最后,在公共ImageNet-21k数据集上预训练的ViT-L/16模型在大多数数据集上也表现良好,同时预训练所需的资源更少:它可以使用具有8个核心的标准云TPUv3在大约30天内进行训练。
    • 下图将VTAB任务分解到各自的组中,并在此基准上与以前的SOTA方法进行比较:BiT、是一个在ImageNet和Youtube上共同训练的ResNet,以及是ImageNet上的监督加半监督学习。在自然和结构化任务上,ViT-H/14优于BiT-R152x4和其他方法。在专业化任务上,前两种模式的表现是相似的。
      • VTAB在自然、专业和结构化任务组中的表现细分。
  • PRE-TRAINING DATA REQUIREMENTS

    • 视觉transformer在大型JFT-300M数据集上进行预训练时表现良好。与ResNets相比,视觉的归纳偏差更少,数据集的大小有多重要?本文进行了两个系列的实验。
    • 首先,本文在不断增加的数据集上预训练ViT模型:ImageNet、ImageNet-21k和JFT300M。为了提高较小数据集的性能,本文优化了三个基本的正则化参数——权重衰减、损失函数和label smoothing。
    • 下图显示了微调到ImageNet后的结果(其他数据集的结果如下表所示)。当在最小的数据集ImageNet上进行预训练时,。用ImageNet-21k预训练,他们的表现差不多。只有使用JFT-300M,才能看到大型机型的全部优势。下图还显示了不同尺寸的位模型所跨越的性能区域。在ImageNet上,比特CNN优于ViT,但是在更大的数据集上,ViT超过了它。
      • Transfer to ImageNet. 虽然在小数据集上进行预训练时,大型ViT模型的性能比BiT ResNets(阴影区域)差,但在大型数据集上进行预训练时,它们会大放异彩。同样,随着数据集的增长,较大的ViT变体会超过较小的。
      • 在ImageNet、ImageNet-21k或JFT300M上进行预训练时,Vision Transformer在各种数据集

标签: 13sa2电连接器09sa2电连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台