资讯详情

2021综述:计算机视觉中的注意力机制(续二):空间注意力

文章目录

    • 3.3 Spatial Attention
      • 3.3.1 RAM
      • 3.3.2 Glimpse Network
      • 3.3.3 Hard and soft attention
      • 3.3.4 Attention Gate
      • 3.3.5 STN
      • 3.3.6 Deformable Convolutional Networks
      • 3.3.7 Self-attention and variants
      • 3.3.8 Vision T ransformers
      • 3.3.9 GENet
      • 3.3.10 PSANet
  • 参考文献

3.3 Spatial Attention


空间注意力可以看作是一种自适应的空间区域选择机制:关注哪里。如图 4 所示,RAM [31]、STN [32]、GENet [61] 和 Non-Local [15] 代表不同类型的空间注意方法。 RAM 代表基于 RNN 的方法。 STN 代表那些使用子网络明确预测相关区域的人。 GENet 用子网络预测软掩码以选择重要区域的方法代表那些隐藏的方法。 Non-Local 表示与自我注意相关的方法。

图4

图 4. 视觉注意力的发展背景。

代表性空间注意机制按类别和日期排序。应用领域包括:Cls = 分类,FGCls = 细粒度分类,Det = 检测,SSeg = 语义分割,ISeg = 实例分割,ST = 风格迁移,Action = 动作识别,ICap = 图像字幕。 Ranges 表示注意力图的范围。 S 或 H 表示软注意力或硬注意力。(A) 根据预测选择区域。 (B) 逐元素相乘, 聚合信息的注意力。 (I) 将网络集中在判别区,(II) 避免过度计算大型输入图像,(III) 提供更多的变换不变性,(IV) 捕获远程依赖关系,(V) 去噪输入特征图 (VI) 自适应聚合邻域信息,(七)减少归纳偏差。

3.3.1 RAM


卷积神经网络具有巨大的计算成本,特别是对于大输入。在重要领域集中有限的计算资源,Mnih 等人提出采用RNN和强化学习(RL)循环注意模型(RAM)要注意网络学习。 RAM 先使用 RNN 视觉注意力随后出现了许多其他的基础RNN的方法。

如图 6 所示,RAM 三个关键元素:(A)a glimpse 传感器,(B)a glimpse 网络和(C)一个 RNN 模型。 glimpse 传感器获取坐标 l t ? 1 l_{t-1} lt?1和图像 X t X_{t} Xt。它输出以 l t ? 1 l_{t-1} lt?1多分辨率切片为中心 ρ ( X t , l t − 1 ) \rho\left(X_{t}, l_{t-1}\right) ρ(Xt​,lt−1​)。 glimpse 网络 f g ( θ ( g ) ) f_{g}(\theta(g)) fg​(θ(g))包括一个 glimpse 传感器,并输出输入坐标 l t − 1 l_{t-1} lt−1​和图像 X t X_{t} Xt​的特征表示 g t g_{t} gt​。 RNN 模型考虑 g t g_{t} gt​和内部状态 h t − 1 h_{t-1} ht−1​并输出下一个中心坐标 l t l_{t} lt​和动作 a t a_{t} at​,例如softmax图像分类任务。由于整个过程不可微,因此在更新过程中应用了强化学习策略。

图 6. RAM中的注意力过程。 (A):a glimpse传感器将图像和中心坐标作为输入并输出多个分辨率补丁。 (B):a glimpse网络包括a glimpse传感器,以图像和中心坐标作为输入并输出特征向量。 © 整个网络循环使用一个 glimpse 网络,输出预测结果以及下一个中心坐标。

这提供了一种简单但有效的方法,可以将网络集中在关键区域,从而减少网络执行的计算次数,特别是对于大输入,同时改善图像分类结果。

3.3.2 Glimpse Network


受人类如何顺序执行视觉识别的启发,Ba 等人提出了一种类似于RAM的深度循环网络,能够处理输入图像的多分辨率裁剪,称为a glimpse,用于多对象识别任务。所提出的网络使用a glimpse作为输入来更新其隐藏状态,然后在每一步预测一个新对象以及下一个a glimpse位置。a glimpse通常比整个图像小得多,这使得网络的计算效率很高。

所提出的深度循环视觉注意模型由上下文网络、glimpse网络、循环网络、发射网络和分类网络组成。首先,上下文网络将下采样的整个图像作为输入,为循环网络提供初始状态以及第一次瞥见的位置。然后,在当前时间步 t t t,给定当前 glimpse x t x_{t} xt​及其位置元组 l t l_{t} lt​,glimpse网络的目标是提取有用信息,表示为 g t = f image  ( X ) ⋅ f loc  ( l t ) g_{t}=f_{\text {image }}(X) \cdot f_{\text {loc }}\left(l_{t}\right) gt​=fimage ​(X)⋅floc ​(lt​) 其中 f image  ( X ) f_{\text {image }}(X) fimage ​(X)和 f loc  ( l t ) f_{\text {loc }}\left(l_{t}\right) floc ​(lt​)是非线性函数,它们都输出具有相同维度的向量,并且 ⋅ \cdot ⋅表示元素乘积,用于融合来自两个分支的信息。然后,由两个堆叠的循环层组成的循环网络聚合从每个单独的a glimpse中收集的信息。循环层的输出是: r t ( 1 ) = f rec  ( 1 ) ( g t , r t − 1 ( 1 ) ) r t ( 2 ) = f rec  ( 2 ) ( r t ( 1 ) , r t − 1 ( 2 ) ) \begin{aligned} r_{t}^{(1)} &=f_{\text {rec }}^{(1)}\left(g_{t}, r_{t-1}^{(1)}\right) \\ r_{t}^{(2)} &=f_{\text {rec }}^{(2)}\left(r_{t}^{(1)}, r_{t-1}^{(2)}\right) \end{aligned} rt(1)​rt(2)​​=frec (1)​(gt​,rt−1(1)​)=frec (2)​(rt(1)​,rt−1(2)​)​ 给定循环网络的当前隐藏状态 r t ( 2 ) r_{t}^{(2)} rt(2)​,发射网络预测下一次裁剪的位置。形式上,它可以写成 l t + 1 = f e m i s ( r t ( 2 ) ) l_{t+1}=f_{\mathrm{emis}}\left(r_{t}^{(2)}\right) lt+1​=femis​(rt(2)​) 最后,分类网络根据循环网络的隐藏状态 r t ( 1 ) r_{t}^{(1)} rt(1)​输出对类别标签 y y y的预测。 y = f c l s ( r t ( 1 ) ) y=f_{\mathrm{cls}}\left(r_{t}^{(1)}\right) y=fcls​(rt(1)​)

与对整个图像进行操作的 CNN 相比,所提出的模型的计算成本要低得多,并且它可以自然地处理不同大小的图像,因为它只处理每一步的a glimpse。循环注意机制进一步提高了鲁棒性,这也缓解了过拟合的问题。该管道可以合并到任何最先进的 CNN backbone或 RNN 单元中。

3.3.3 Hard and soft attention


为了可视化图像说明生成模型应该关注的位置和内容,Xu 等人引入了一个基于注意力的模型以及两种不同的注意力机制,硬注意力和软注意力。

给定一组特征向量 a = { a 1 , … , a L } , a i ∈ R D \boldsymbol{a}=\left\{a_{1}, \ldots, a_{L}\right\}, a_{i} \in \mathbb{R}^{D} a={ a1​,…,aL​},ai​∈RD从输入图像中提取,该模型旨在通过在每个时间步生成一个单词来生成标题。因此他们采用长短期记忆(LSTM)网络作为解码器;注意力机制用于生成以特征集 a \boldsymbol{a} a和先前隐藏状态 h t − 1 h_{t-1} ht−1​为条件的上下文向量 z t z_{t} zt​,其中 t t t表示时间步长。形式上,特征向量 a i a_{i} ai​在第 t t t个时间步的权重 α t , i \alpha_{t, i} αt,i​定义为 e t , i = f a t t ( a i , h t − 1 ) α t , i = exp ⁡ ( e t , i ) ∑ k = 1 L exp ⁡ ( e t , k ) \begin{aligned} e_{t, i} &=f_{\mathrm{att}}\left(a_{i}, h_{t-1}\right) \\ \alpha_{t, i} &=\frac{\exp \left(e_{t, i}\right)}{\sum_{k=1}^{L} \exp \left(e_{t, k}\right)} \end{aligned} et,i​αt,i​​=fatt​(ai​,ht−1​)=∑k=1L​exp(et,k​)exp(et,i​)

标签: 3050al旋转传感器cls系列传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台