EPSANet学习笔记
EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network
Abstract
最近,研究表明,嵌入在深度卷积神经网络中的注意模块可以有效地提高其性能。在这项工作中,提出了一种新的轻量级和有效的注意方法,称为金字塔挤压注意力(PSA)模块。。EPSA块可以很容易地作为即插即用组件添加到成熟的主干网络中,并可以显著提高模型性能。因此,本文通过堆叠这些ResNet风格的EPSA块开发了一种简单高效的主体结构EPSANet。相应地,,包括但不限于图像分类、对象检测、实例分割等。在没有任何细节的情况下提出EPSANet性能优于大多数最先进的渠道注意力方法。与SENet-50相比,在ImageNet数据集上,Top-1精度提高了1.93%,在MS-COCO使用数据集mask RCNN对象检测时获得 2.7 box AP更大的幅度,提高了 1.7 mask AP,例如分割。我们的源代码位于:https://github.com/murufeng/EPSANet.
1 Introduction
注意机制广泛应用于图像分类、对象检测、实例分割、语义分割、场景分析和动作定位[1、2、3、4、5、6、7]等计算机视觉领域。具体来说,有两种注意方法,即通道注意和空间注意。最近证明,通过使用通道注意、空间注意或两者,可以实现显著的性能改进[8、9、10、11、12]。。SENet缺点是忽略了空间信息的重要性。因此,提出了(BAM)[14]和(CBAM)[5]通过有效地结合空间和通道注意力来丰富注意力。然而,仍然存在两个重要而具有挑战性的问题。 。通过这样做,上下文特征的邻居尺度可以更准确地合并。
1)提出了一种新的高效金字塔压缩注意力块(EPSA),该块可以在
2)提出了新的主干结构EPSANet,它可以学习更丰富的多尺度特征表示,并自适应地重新校准跨维通道,注意权重。
3)大量实验表明,应该EPSANet可以在ImageNet和COCO在数据集中实现图像分类、目标检测和实例分割。
2 Related Work
注意机制用于加强信息量最大的特征表达式分布,抑制不太有用的特征表达式,使模型能够适应地关注上下文中的重要区域。[13]中的挤压和刺激(SE)通道的相关性可以通过选择性调整通道的规模来捕捉。
**Multi-scale Feature Representations **
多尺度特征表示的能力对实例分割[22]、人脸分析[23]、目标检测[24]、显著目标检测[25]、语义分割[7]等各种视觉任务至关重要。设计一个能更有效地提取多尺度特征的好算子对于视觉识别任务至关重要。将多尺度特征提取算子嵌入卷积神经网络(CNN),能够获得更有效的特征表达能力。另一方面,CNN可以通过卷积算子堆栈自然地学习从粗到细的多尺度特征。因此,
3 Method
3.1 Revisting Channel Attention
通道注意机制允许网络选择性地加权每个通道的重要性,从而产生更多的信息输出。 X ∈ R C × H × W X∈ R^{C×H×W} X∈RC×H×W表示输入特征图,其中数量H、W、C分别表示其高度、宽度和输入通道数。SE块由压缩和激励两部分组成,分别用于编码全局信息和自适应重新校准信道关系。通常,可以通过使用全局平均池来生成信道统计信息,全局平均池用于将全局空间信息嵌入到信道描述符中。全局平均池算子可以通过以下等式计算
SE块中第c通道的注意力权重可以写为
其中,
3.2 PSA Module
这项工作的动机是建立一个更有效的
如图4所示,在拟议的PSA中实现多尺度特征提取的基本算子是SPC,我们以多分支方式提取输入特征图的空间信息,每个分支的输入通道维数为C。通过这样做,我们可以获得更丰富的输入张量位置信息,并在多个尺度上并行处理。因此,可以获得包含单一类型内核的特征图。相应地,可以通过在金字塔结构中使用多尺度卷积核来生成不同的空间分辨率和深度。通过压缩输入张量的通道维数,可以有效地提取每个通道特征图上不同尺度的空间信息。最后,具有不同比例 F i F_i Fi的每个特征映射具有公共通道维数 C ′ = C / S C^{'}=C/S C′=C/S和 i = 0 , 1 , ⋅ , S − 1 i=0,1,·,S−1 i=0,1,⋅,S−1.注意,
此外,我们设计了一种新的准则,用于在不增加参数数量的情况下选择群大小。
其中,
其中,
其中 F ∈ R C × H × W F∈ R^{C×H×W} F∈RC×H×W是获得的多尺度特征图。通过从多尺度预处理特征图中提取通道注意权重信息,得到不同尺度的注意权重向量。从数学上讲,注意力权重向量可以表示为
这里 Z i ∈ R C ′ × 1 × 1 Z_i∈ R^{C^{'}×1×1} Zi∈RC′×1×1是注意力权重。
这里⊕ 是concat算子, Z i Z_i Zi是 F i F_i Fi中的注意力值,Z是多尺度注意力权重向量。在紧凑的特征描述符 Z i Z_i Zi的引导下,跨通道使用软注意自适应地选择不同的空间尺度。软分配权重由以下公式得出:
其中,Softmax用于获得多尺度信道的重新校准权重 a t t i att_i atti,其中包含空间上的所有位置信息和信道中的注意力权重。通过这样做,
其中,att表示注意力交互后的多尺度通道权重。然后,我们将多尺度通道注意力 a t t i att_i atti的重新校准权重与相应尺度 F i F_i Fi的特征图相乘为
这里$\odot $表示通道乘法,Yi是指具有获得的多尺度通道注意力权重的特征图。**concatenation算子比求和更有效,因为它可以完整地维护特征表示,而不会破坏原始特征映射的信息。**总之,获得精细输出的过程可以写成
如上述分析所示,我们提出的PSA模块可以将多尺度空间信息和跨通道注意力集成到每个特征组的块中。因此,我们提出的PSA模块可以在局部和全局通道注意力之间获得更好的信息交互。
3.3 Network Design
如图5所示,通过在ResNet的bottelneck块中的相应位置用PSA模块替换3x3卷积,进一步获得了一个名为高效金字塔压缩注意力(EPSA)块的新块。我们的PSA模块将多尺度空间信息和跨通道注意力集成到EPSA块中。因此,EPSA块可以在更细粒度的级别上提取多尺度空间信息,并形成远程信道依赖性。相应地,通过将提出的EPSA块堆叠为ResNet风格,开发了一种新的高效骨干网络EPSANet。该EPSANet继承了EPSA块的优点,因此具有强大的多尺度表示能力,可以自适应地重新校准跨维度通道权重。如表1所示,提出了EPSANet的两种变体,EPSANet(小)和EPSANet(大)。对于拟议的EPSANet(小),在SPC模块中,内核和组大小分别设置为(3,5,7,9)和(1,4,8,16)。拟议的EPSANet(大)具有更高的组大小,并在SPC模块中设置为(32,32,32,32)。
4 Experiments
5 Conclusion
本文提出了一种高效、轻量级的即插即用注意力模块,称为金字塔挤压注意力(PSA)。该PSA模块能够充分提取多尺度空间信息和通道注意向量中跨维度的重要特征。提出的高效金字塔压缩注意力块(EPSA)可以在更细粒度的水平上提高多尺度表示能力,并发展远程信道依赖性。该EPSANet可以有效地整合多尺度上下文特征和图像级分类信息。通过大量的定性和定量实验,验证了与其他传统的通道注意方法相比,所提出的EPSANet在图像分类、对象检测和实例分割方面可以实现最先进的性能。作为我们未来的工作,我们将研究在更轻量级的CNN架构中添加PSA模块的效果。