资讯详情

(ICLR-2022)关于局部注意力和动态深度卷积之间的联系

局部注意力与动态深度卷积之间的联系

paper题目:ON THE CONNECTION BETWEEN LOCAL ATTENTION AND DYNAMIC DEPTH-WISE CONVOLUTION

paper南开大学出版ICLR 2022的工作

paper地址:链接

ABSTRACT

Vision Transformer (ViT) 变体在视觉识别方面取得了最先进的性能 Local Vision Transformer 进一步改进。 Local Vision Transformer 主要部件,局部注意力,在小局部窗口分别执行注意力。将局部注意力重新表达为通道模式的局部连接层,并从稀疏连接和权重共享两种网络规则模式和动态权重计算进行分析。作者指出,局部注意力类似于稀疏连接中的深度卷积和动态变体:通道之间没有连接,每个位置都连接到一个小的局部窗口。主要区别在于(i)权重共享 - depth-wise convolution 共享空间位置之间的连接权重(核心权重),attention 共享通道间的连接权重,以及(ii)动态权重计算方法 - 局部注意力是基于局部窗口中成对位置之间的点积,动态卷积是基于中心表示或全局池化表示的线性投影。

通过对局部注意力与动态深度卷积的联系Local Vision Transformer实验验证了深度卷积中权重共享和动态权重计算的消融研究。根据实验观察,基于深度卷积的模型和计算复杂度较低的动态变体 ImageNet 分类、COCO 目标检测和 ADE 语义分割的表现和表现 Swin Transformer(Local Vision Transformer 一个例子)相当或略好。代码地址:链接

1 INTRODUCTION

Vision Transformer在 ImageNet 分类中显示出可观的性能。改进的变体 Local Vision Transformer采用局部注意机制,将图像空间划分为一组小窗口,同时将注意力转移到窗口上。局部注意力大大提高了内存和计算效率,使目标检测和语义分割等下游任务,如目标检测和语义分割。

作者研究了局部注意力机制,利用网络规则化方案,控制模型复杂性的稀疏连接,放宽增加训练数据规模的权重共享,降低模型参数的要求,增加动态权重预测模型的能力。将局部注意力重新表达为具有动态连接权重的空间局部连接层。主要性能总结如下。 (i) 稀疏连接:无跨通道连接,每个输出位置仅连接到局部窗口的输入位置。 (ii) 权重共享:连接权重在通道或每组通道之间共享。 (iii) 动态权重:根据每个图像实例动态预测连接权重。

将局部注意力与深度卷积及其动态变体联系起来,也是具有可选动态连接权重的通道空间局部连接层。它们类似于稀疏连接。主要区别在于(i)权重共享 - depth-wise convolution 共享空间位置之间的连接权重(核心权重),attention 共享通道间的连接权重,以及(ii)动态权重计算方法 - 局部注意力是基于局部窗口中成对位置之间的点积,动态卷积是基于中心表示或全局池化表示的线性投影。

作者进一步提出了连接的实验验证。最近开发的 Local Vision Transformer Swin Transformer例如,研究在和 Swin Transformer 在相同的训练设置下,局部注意力和(动态)深度卷积的实验性能。局部注意力层用(动态)深度卷积层代替,整体结构保持不变。

结果表明,基于(动态)深度卷积的方法是 ImageNet 分类和两个下游任务 COCO 目标检测和 ADE 语义分割性能相当或略高,深度卷积(动态)需要较低的计算复杂度。消融研究表明,权重共享和动态权重提高了模型的能力。具体来说,(i) 对于 Swin Transformer,跨通道权重共享主要有利于降低参数(注意力权重)的复杂性,基于注意力的动态权重计划有利于学习特定实例的权重和block-translation等价表示; (ii) 对于深度卷积,跨位置权重共享有利于降低参数复杂度和学习平移等效,而基于线性投影的动态权重方案学习特定于实例的权重。

2 CONNECTING LOCAL ATTENTION AND DEPTH-WISE CONVOLUTION

2.1 LOCAL ATTENTION


Vision Transformer通过重复注意力层和随后的点 MLP(逐点卷积)形成网络。 Vision Transformer,如Swin Transformer和HaloNet,采用局部注意层,将空间分成一组小窗口,同时注意每个窗口,以提高内存和计算效率。

局部注意机制在query在窗户中形成key和value。query x i ∈ R D \mathbf{x}_{i} \in \mathbb{R}^{D} xi∈RD在位置 i i i注意力输出是局部窗口相应值的集合, { x i 1 , x i 2 , … , x i N k } \left\{\mathbf{x}_{i 1}, \mathbf{x}_{i 2}, \ldots, \mathbf{x}_{i N_{k}}\right\} { xi1​,xi2​,…,xiNk​​},由相应的注意力权重 { a i 1 , a i 2 , … , a i N k } 1 \left\{a_{i 1}, a_{i 2}, \ldots, a_{i N_{k}}\right\}^{1} { ai1​,ai2​,…,aiNk​​}1的加权 y i = ∑ j = 1 N k a i j x i j ( 1 ) \mathbf{y}_{i}=\sum_{j=1}^{N_{k}} a_{i j} \mathbf{x}_{i j} \quad(1) yi​=j=1∑Nk​​aij​xij​(1) 其中 N k = K w × K h N_{k}=K_{w} \times K_{h} Nk​=Kw​×Kh​是局部窗口的大小。注意力权重 a i j a_{i j} aij​被计算为query x i \mathbf{x}_{i} xi​和key x i j \mathbf{x}_{i j} xij​之间的点积的 softmax 归一化: a i j = e 1 D x i ⊤ x i j Z i  where  Z i = ∑ j = 1 N k e 1 D x i ⊤ x i j ( 2 ) a_{i j}=\frac{e^{\frac{1}{\sqrt{D}} \mathbf{x}_{i}^{\top} \mathbf{x}_{i j}}}{Z_{i}} \text { where } Z_{i}=\sum_{j=1}^{N_{k}} e^{\frac{1}{\sqrt{D}} \mathbf{x}_{i}^{\top} \mathbf{x}_{i j}} \quad(2) aij​=Zi​eD ​1​xi⊤​xij​​ where Zi​=j=1∑Nk​​eD ​1​xi⊤​xij​(2) 多头版本将 D D D维query、key和value向量划分为 M M M个子向量(每个子向量有 D M \frac{D}{M} MD​个维度),并在相应的子向量上执行 M M M次注意力过程。整个输出是 M M M个输出的串联, y i = [ y i 1 ⊤ y i 2 ⊤ … y i M ⊤ ] ⊤ \mathbf{y}_{i}=\left[\begin{array}{llll}\mathbf{y}_{i 1}^{\top} & \mathbf{y}_{i 2}^{\top} & \ldots & \mathbf{y}_{i M}^{\top}\end{array}\right]^{\top} yi​=[yi1⊤​​yi2⊤​​…​yiM⊤​​]⊤。第 m m m个输出 y i m \mathbf{y}_{i m} yim​由下式计算 y i m = ∑ j = 1 N k a i j m x i j m ( 3 ) \mathbf{y}_{i m}=\sum_{j=1}^{N_{k}} a_{i j m} \mathbf{x}_{i j m} \quad(3) yim​=j=1∑Nk​​aijm​xijm​(3) 其中 x i j m \mathbf{x}_{i j m} xijm​是第 m m m个值子向量, a i j m a_{i j m} aijm​是从第 m m m个头计算的注意力权重,方法与公式 2 相同。

2.2 SPARSE CONNECTIVITY, WEIGHT SHARING, AND DYNAMIC WEIGHT


简要介绍了两种正则化形式,稀疏连接和权重共享,以及动态权重,以及它们的好处。将使用这三种形式来分析局部注意力并将其连接到动态深度卷积。

稀疏连通性意味着一层中的一些输出神经元(变量)和一些输入神经元之间没有连接。它在不减少神经元数量的情况下降低了模型复杂度,例如(隐藏)表示的大小。

权重共享表示某些连接权重是相等的。它减少了模型参数的数量并增加了网络大小,而无需相应增加训练数据。

动态权重是指为每个实例学习专门的连接权重。它通常旨在增加模型容量。如果将学习到的连接权重视为隐藏变量,则动态权重可以被视为引入增加网络能力的二阶操作。

2.3 ANALYZING LOCAL ATTENTION


局部注意力是一个通道方式的空间局部连接层,具有动态权重计算,并讨论了它的属性。图 1 © 说明了连接模式。

图1

图 1:(a) 卷积、(b) 全局注意力和空间混合 MLP、© 局部注意力和深度卷积、(d) 逐点 MLP 或 1 × 1 1 \times 1 1×1卷积 (e) MLP(全连接层)。在空间维度上,为了清楚起见,使用一维来说明局部连接模式。

局部注意力的聚合过程(公式 1 和公式 3)可以等效地以元素乘法的形式重写: y i = ∑ j = 1 N k w i j ⊙ x i j ( 4 ) \mathbf{y}_{i}=\sum_{j=1}^{N_{k}} \mathbf{w}_{i j} \odot \mathbf{x}_{i j} \quad (4) yi​=j=1∑Nk​​wij​⊙x 标签: wnk808系列压力变送器wnk79智能压力变送器wnk79压力变送器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台