资讯详情

【读点论文】Transformer in Transformer 细化图片结构,递归使用transformer。让图片去拟合自然语言处理的...

Transformer in Transformer

Abstract

  • Transformer通过注意机制,是一种新的神经架构基本上,视觉transformer先将输入图像分成几个局部小块,然后计算两种表示及其关系。

  • 由于自然图像具有高度的复杂性和丰富的细节和颜色信息,块划分的粒度不同,以挖掘不同尺度和位置的物体特征。

  • 本文指出了这些局部部位,并探索了一种新的结构,即transformer中的transformer(TNT)。

  • 具体来说,本文将是局部小块(如16)×16)视为视觉句子。每个单词的注意力将与给定视觉句子中的其他单词一起计算,计算成本可以忽略不计。

  • 单词和句子的特征将被聚合,以增强表达能力。几个基准的实验证明了提出的TNT例如,本文的模型是系统结构的有效性ImageNet上获得了81.5%的top-1精度,比计算成本相似的最先进的视觉转换器高1左右.7%。

  • PyTorch代码可在https://github.com/huawei-noah/CV-Backbones,获得,

  • MindSpore代码可在https://gitee.com/mindspore/models/tree/master/research/cv/TNT获得。

  • 提出了一个新颖的Transformer-iN-Transformer(TNT)模型,

  • 在这里插入图片描述

    • 在每个TNT块中,。通过线性变换层投影像素级特征patch嵌入空间,然后添加到patch中。通过堆叠TNT本文建立了用于图像识别的块TNT模型。
  • 研究人员提出了一种新的视觉 Transformer 网络架构 Transformer in Transformer,。TNT 还暗合了 Geoffrey Hinton 最新提出的 part-whole hierarchies 思想。

    • 谷歌 ViT(Vision Transformer)模型是视觉任务的纯模型 transformer 经典的技术解决方案。它将输入图成几个图像块(patch),然后将 patch 用向量表示,用 transformer 来处理图像 patch 序列,最终的输出做图像识别。
    • 华为诺亚实验室的研究人员提出了一个基于结构嵌套的研究人员 Transformer 结构,被称为 Transformer-iN-Transformer (TNT) 结构。TNT 将图像切成块,形成 Patch 序列。
    • 新提出的 TNT block 使用一个外 Transformer block 来对 patch 建模两者之间的关系,用一个内部 Transformer block 建模像素之间的关系。 TNT 结构,

Introduction

Approach

锐单商城 - 一站式电子元器件采购平台