attention mechanism in computer vision(1)——channel attention

文章目录

attention mechanism in computer vision(1)——channel attention
一、attention一般模式：
二、Channel attention
三、总结
四、细节解释：
- 1、SENet
- 2、GSoP-Net
- 3、SRM
- 4、GCT
- 5、ECANet
- 6、FcaNet
- 7、EncNet
- 8、 Bilinear Attention

一、attention一般模式：

Attention = f(g(x), x)，g(x)它代表了识别重要区域的过程，f(g(x), x）几乎所有现有的注意机制都可以写入上述公式：

二、Channel attention

在深度神经网络中，不同特征图中的不同通道通常代表不同的对象。通道注意自适应地重新校准每个通道的权重，可以看作是选择对象的过程，从而决定需要注意什么。第一个提出这个概念并使用的模型是SENet，还有后续的工作GSop-Net,SRM,GCT,ECANet,FcaNet,EncNet,Bilinear attention

三、总结

这里的总结很容易直接查看结果，后面有太多的细节，以便直接查看各种模型的结构、优点、作者信息等：模型的结构：提供了net最重要的任务是常用的出版信息g(X)，f(g(X),X)结构，soft attention还是hard attention：

四、细节解释：

稍微解释一下，最多只能自己理解。如果觉得不是很详细，去看论文或者其他博客文章。

1、SENet

senet的全称为Squeeze-and-Excitation Networks，压缩激活网络 Sequeeze：对进行global average pooling，得到大小特征图，这个特征图可以理解为具有全局感觉的野性。 Excitation ：对Sequeeze结果是非线性变换。特征重标定：使用Excitation 结果作为权重乘到输入特征。效果：现在分类网络一般都是成一个block一个block,se模块就可以加到一个block在最后的位置进行信息refine。这里用了一些STOA如：resnet50,resnext50，bn-inception等网络。通过添加SE模块可以提升模型0.5-1.5%，效果还可以，增加的计算量也可以忽略不计。轻量级网络MobileNet,ShuffleNet上也进行了实验，可以提升的点更多一点大概在1.5-2%。但是SE使用的是GAP，在squeeze model全局平均池太简单，无法捕获复杂的全局信息。在excitation model全连接层增加了模型的复杂性。

从attention的角度描述：SE Block分为两部分，即squeeze module和excitation model,通过全局平均池化，在squeeze model收集全局空间信息。excitation model使用全连接层和非线性层(ReLU和sigmoid)捕获信道级关系，输出注意向量。然后，通过乘以注意向量中相应的元素来缩放输入特征的每个通道attention一般模式中的公式为：

2、GSoP-Net

SE块只使用全局平均池(即一阶统计信息)捕获全局信息，限制了其建模能力，特别是高级统计信息的捕获能力GSoP-Net主要在squeeze model采用全局二阶池(GSoP)块，在收集全局信息的同时建模高级统计数据。操作步骤：首先通过一个1X1卷积层减少层数，然后计算不同信道的协方差矩阵，以获得其相关性。得到的协方差矩阵具有明确的物理意义，即其第i行表示通道i与所有通道的统计相关性。由于所涉及的二次操作改变了数据的顺序，为了确保固有的结构信息，下一步将协议差矩阵分级，然后应用全连接层和一个sigmoidc维注意函数的向量。使用二阶池化，GSoP块改善通过SE块收集全局信息的能力。然而，这是以额外的计算为代价的。因此，通常在几个残余块后添加单个块GSoP块。从attention角度描述：

3、SRM

SRM将风格转移与注意机制相结合。它的主要贡献是风格池。它利用输入特征的平均值和标准差来提高其捕获全球信息的能力。它还使用轻量级通道进行全连接(CFC)它由两个主要组件组成：Style Pooling 和 Style Integration。Style Pooling 通过总结跨空间维度的特征响应，从每个通道提取运算符的风格特征。然后是 Style Integration 运算符通过基于通道的操作，利用风格特征，在示例中产生特定的风格权重。 Style Pooling：固定输入特征图 (N,C,H,W)，样式特征通过以下方法计算(N,C,d) ,一般来说d=2：

风格矢量作为每个示例 [公式] 和通道 [公式] 风格信息的总结和描述。风格向量也可以包含其他类型的风格特征，如不同通道之间的相关性，但为了清晰的效率和概念，这里专注于按通道统计。

Style Integration：风格集成运算符将风格特征转换为通道方式的风格权重。风格权重应该被用来建模与各个通道关联的风格的重要性，从而相应地强调或压抑它们。为了实现这一点，我们采用了通道级完全连接（CFC）层，批标准化（BN）层和 Sigmoid 激活函数的简单组合。给定风格表示形式 T ϵ R N ⋅ C ⋅ 2 \ T\epsilon R^{N\cdot C\cdot 2} TϵRN⋅C⋅2 作为输入，风格集成运算符使用可学习的参数 W ϵ R C ⋅ 2 W\epsilon R^{C\cdot 2} WϵRC⋅2 进行通道编码,这里做的是点积：可以将此操作视为具有两个输入节点和一个输出的独立于通道的完全连接层，其中偏置项被吸纳到随后的BN层中。然后，我们应用BN来促进训练和将 Sigmoid 函数作为门控机制：从attention角度：给定一个输入特征图 X ϵ R C . H . W X\epsilon R^{C.H.W} XϵRC.H.W，SRM首先使用样式池(SP（·）)收集全局信息，该样式池结合了全局平均池和全局标准偏差池。然后利用通道全连接（CFC（·））层（即每个通道全连接）、批归一化BN和s型函数σ提供注意向量。最后，就像在一个SE块中一样，将输入特征乘以注意向量。总的来说，一个SRM可以写成：

4、GCT

SENet在squeeze model采用了两个全连接层，导致计算复杂度增加，一般只能在几个残差块之后加上一个SE块，而且全连接是一种隐式表达，但是GCT的核心部分归一化没有参数，后面部分门控自适应操作符的参数易于可视化，可以直观地解释GCT的行为。这种少参数的单元容易部署，可以把它看成batch normalization一般的轻量级护理。部署GCT层有三个可能的点，分别是在卷积层之前、归一化层之前和归一化层之后。如图，输入的feature map 经过 Global Context Embedding，Channel Normalization，Gating Adaptation 1、Global Context Embedding：不同于前面几个模型，这里先采集全局的信息汇聚。给定嵌入参数 α = [ α 1 , α 2 . . . α c ] \alpha =[\alpha _{1},\alpha _{2}...\alpha _{c}] α=[α1,α2...αc] ，该模块定义如上图：其中，为极小常识用于避免倒数为0。不同SE，GCT并未使用全局均值池化进行通道上下文信息汇聚。作者认为GAP在某些极限情况下会失效，比如SE位于Instance Normalization之后时GAP的输出将是常数，因为IN会固化通道特征的均值。为避免上述问题，作者提出采用了范数进行替代，GCT对不同 ι p \iota _{p} ιp 具有较好的鲁棒性，最佳者是 ι 2 \iota _{2} ι2。此外，我们提出采用可训练参数用于控制不同通道的重要性。特别的当 α \alpha α 近似于0时，通道c将不会被纳入到通道规范化中。也就是说使得GCT能学习极限情形：单通道起作用。

2、Channel Normalization：规范化可以通过少量计算资源构建神经元间的竞争关系，类似于LRN，作者采用 ι 2 \iota _{2} ι2进行跨通道特征规范化，即通道规范化，此时定义如下：

3、Gating Adaptation：在前述基础上添加了门限机制，通过引入门线机制，GCT可以有助于促进神经元的竞争or协同关系。定义如下：由于通道规范化是无参数操作，作者设计了一组可训练参数 γ \gamma γ , β \beta β 用于控制通道门线。不同于LRN仅促进通道竞争，GCT可以同时促进通道竞争与协同关系。当通道的门限权值为正时，GCT取得了类似LRN的通道竞争关系；当通道的门限权值为负时，GCT取得了通道协同作用。

从attention的角度：效果：GCT块比SE块的参数更少，而且由于它具有轻量级的特性，因此可以在CNN的每个卷积层之后添加。

5、ECANet

为了避免较高的模型复杂度，SENet减少了通道的数量，但是作者通过实验发现避免降维对于学习通道注意力非常重要，适当的跨信道交互可以在显著降低模型复杂度的同时保持性能。为此提出了一种有效的通道关注(ECA)模块，该模块只增加了少量的参数，却能获得明显的性能增益。下图为ECA模块，输入的feature map先经过一个GAP,输出一个(1,1,C)的向量，再将这个向量经过一个1D的卷积，核的大小K是可以学习的，最后得到权重向量： k和C之间存在映射，由于通道维数通常是2的指数倍，所以，这里采用以2为底的指数函数来表示非线性映射关系: 得到（ γ \gamma γ和b是超参数，实验一般分别是2，1， ∣ t ∣ o d d \left | t\right |_{odd} ∣t∣odd表示最接近t的奇数）：从attention的角度：ECA块与SE块具有类似的公式，包括用于聚合全局空间信息的squeeze model和用于建模跨信道交互的有效exitation model。不同于SENet的间接的通道交互，ECA块只考虑每个通道与其k个最近邻之间的直接交互，以控制模型的复杂性。效果：与SENet相比，ECANet具有改进的exitatioon model，并提供了一个高效、有效的模块，可以很容易地集成到各种CNN。

6、FcaNet

Squeeze model的GAP缺乏表征能力，作者证明了全局平均池化是离散余弦变换(DCT)的一种特殊情况，为了增强模型的表征能力，利用这一观察结果，提出了一种新的多光谱通道注意方法（multi-spectral channel attention），下图是FcaNet的结构。

步骤：给定一个输入特征图 X ϵ R C . H . W X\epsilon R^{C.H.W} XϵRC.H.W，多光谱通道注意首先将X分成许多部分 X i ϵ R C ′ . H . W X^{i}\epsilon R^{C^{'}.H.W} XiϵRC′.H.W。然后对每个部分 X i X^{i} Xi应用一个二维DCT,2D的DCT可以使用预处理结果来减少计算量。在处理每个部分后，所有的结果都被连接到一个向量中。然后经过一个全连接，一个sigmoid激活函数。

从attention角度: 该工作基于信息压缩和离散余弦变换，在分类任务上取得了良好的性能。

7、EncNet

这篇文章我没大看懂，可以参考博客https://blog.csdn.net/u011974639/article/details/79806893

8、 Bilinear Attention

以往的注意模型只使用一阶信息，而不考虑高阶统计信息。因此，他们提出了一种新的双线性注意块（双注意），在保留空间信息的同时，捕获每个通道内的局部成对特征交互作用。双注意采用在注意中的注意(AiA)机制来获取二阶统计信息：从内信道注意的输出中计算出外点向信道注意向量。给定输入特征图X，双注意首先使用bilinear pooling来捕获二阶信息：其中 ϕ \phi ϕ表示用于降维的embedding function，Utri（·）提取矩阵的上三角元素，Vec（·）是向量化。接下来将内通道注意机制应用于 x ~ ϵ R c ′ ( c ′ + 1 ) 2 . H . W \tilde{x}\epsilon R^{\frac{c^{'}(c^{'}+1)}{2}.H.W} x~ϵR2c′(c′+1).H.W上：

这里的ω和ϕ也是embedding function。最后，利用输出特征图 x ^ \hat{x} x^计算最终的空间通道注意权重效果： bi_attention利用bilinear pooling对沿每个通道的局部成对特征交互进行建模，同时保持空间信息。由于利用了所提出的AiA，与其他基于注意力的模型相比，该模型更关注高阶统计信息。双注意力可以被纳入任何CNN主干中，以提高其表征能力，同时抑制噪声

资讯详情

attention mechanism in computer vision(1)——channel attention

attention mechanism in computer vision(1)——channel attention

文章目录

一、attention一般模式：

二、Channel attention

三、总结

四、细节解释：

1、SENet

2、GSoP-Net

3、SRM

4、GCT

5、ECANet

6、FcaNet

7、EncNet

8、 Bilinear Attention

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

attention mechanism in computer vision(1)——channel attention

文章目录

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录