资讯详情

EPSANet学习笔记

EPSANet学习笔记

EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network

Abstract

最近,研究表明,嵌入在深度卷积神经网络中的注意模块可以有效地提高其性能。在这项工作中,提出了一种新的轻量级和有效的注意方法,称为金字塔挤压注意力(PSA)模块。。EPSA块可以很容易地作为即插即用组件添加到成熟的主干网络中,并可以显著提高模型性能。因此,本文通过堆叠这些ResNet风格的EPSA块开发了一种简单高效的主体结构EPSANet。相应地,,包括但不限于图像分类、对象检测、实例分割等。在没有任何细节的情况下提出EPSANet性能优于大多数最先进的渠道注意力方法。与SENet-50相比,在ImageNet数据集上,Top-1精度提高了1.93%,在MS-COCO使用数据集mask RCNN对象检测时获得 2.7 box AP更大的幅度,提高了 1.7 mask AP,例如分割。我们的源代码位于:https://github.com/murufeng/EPSANet.

1 Introduction

注意机制广泛应用于图像分类、对象检测、实例分割、语义分割、场景分析和动作定位[1、2、3、4、5、6、7]等计算机视觉领域。具体来说,有两种注意方法,即通道注意和空间注意。最近证明,通过使用通道注意、空间注意或两者,可以实现显著的性能改进[8、9、10、11、12]。。SENet缺点是忽略了空间信息的重要性。因此,提出了(BAM)[14]和(CBAM)[5]通过有效地结合空间和通道注意力来丰富注意力。然而,仍然存在两个重要而具有挑战性的问题。 。通过这样做,上下文特征的邻居尺度可以更准确地合并。。Softmax重新校准相应信道的注意力权重,从而建立长程信道依赖关系。所以,通过在ResNet使用瓶颈块PSA模块替换3x3卷积获得高效金字塔压缩注意力(EPSA)的新块。另外,通过这些EPSA块堆叠为ResNet样式,提出了一个名字EPSANet的网络。如图1所示,拟议EPSANet不仅在Top-精度优于现有技术,所需参数更有效。本工作的主要贡献总结如下:

1)提出了一种新的高效金字塔压缩注意力块(EPSA),该块可以在。所提出的EPSA块非常灵活和可扩展,因此可以应用于各种网络架构,以完成许多计算机视觉任务。

2)提出了新的主干结构EPSANet,它可以学习更丰富的多尺度特征表示,并自适应地重新校准跨维通道,注意权重。

3)大量实验表明,应该EPSANet可以在ImageNet和COCO在数据集中实现图像分类、目标检测和实例分割。

image-20220711103554673

2 Related Work

注意机制用于加强信息量最大的特征表达式分布,抑制不太有用的特征表达式,使模型能够适应地关注上下文中的重要区域。[13]中的挤压和刺激(SE)通道的相关性可以通过选择性调整通道的规模来捕捉。。受CBAM[20]GSoP提出了一种提取更丰富特征聚合的二阶池方法。最近,提出了非局部块[19]来构建密集的空间特征图,并通过非局部操作捕捉长期依赖关系。基于非局部块,双注意网络(A2Net)[8]引入一种新的关系函数,将注意力和空间信息嵌入到特征地图中。[21]中的SKNet引入了一种动态选择注意机制,允许每个神经元根据输入特征图的多个尺度自适应调整其感受野大小。ResNeSt[12]提出了一种类似的分割注意力块,允许跨输入特征图组的注意力。Fcanet[9]在频域中实现信道注意机制的预处理,提出了一种新的多光谱信道注意。GCNet引入了一个简单的空间注意模块,因此开发了远程信道依赖。ECANet一维卷积层用于减少完全连接层的冗余。DANet[18]自适应地将局部特征与来自不同分支的两个注意模块的全局依赖相结合。上述方法要么专注于设计更复杂的注意模块,这将不可避免地带来更大的计算成本,要么无法建立远程信道依赖。因此,为了进一步提高效率,降低模型的复杂性,提出了新的注意力模块PSA,该模块旨在以较低的模型复杂性学习注意力权重,有效地整合局部和全球注意力,建立远程信道依赖。

**Multi-scale Feature Representations **

多尺度特征表示的能力对实例分割[22]、人脸分析[23]、目标检测[24]、显著目标检测[25]、语义分割[7]等各种视觉任务至关重要。设计一个能更有效地提取多尺度特征的好算子对于视觉识别任务至关重要。将多尺度特征提取算子嵌入卷积神经网络(CNN),能够获得更有效的特征表达能力。另一方面,CNN可以通过卷积算子堆栈自然地学习从粗到细的多尺度特征。因此,

3 Method

3.1 Revisting Channel Attention

通道注意机制允许网络选择性地加权每个通道的重要性,从而产生更多的信息输出。 X ∈ R C × H × W X∈ R^{C×H×W} X∈RC×H×W表示输入特征图,其中数量H、W、C分别表示其高度、宽度和输入通道数。SE块由压缩和激励两部分组成,分别用于编码全局信息和自适应重新校准信道关系。通常,可以通过使用全局平均池来生成信道统计信息,全局平均池用于将全局空间信息嵌入到信道描述符中。全局平均池算子可以通过以下等式计算

SE块中第c通道的注意力权重可以写为

其中,, W 0 ∈ R C × C / r W_0∈ R^{C×C/r} W0​∈RC×C/r和 W 1 ∈ R C / r × C W_1∈ R^{C/r×C} W1​∈RC/r×C表示完全连接(FC)层。通过两个完全连接的层,可以更有效地组合通道之间的线性信息,并且有助于高通道维度和低通道维度信息的交互。,实践中通常使用函数。通过使用激励函数,我们可以在通道交互后为通道分配权重,从而更有效地提取信息。上面介绍的生成通道注意力权重的过程在[13]中被命名为SEWeight模块,SEWeight模块的图如图2所示。

3.2 PSA Module

这项工作的动机是建立一个更有效的。因此,提出了一种新的金字塔压缩注意力(PSA)模块。如图3所示,PSA模块主要分四个步骤实现。首先,通过实现所提出的,获得通道方向的注意力向量。第三,,获得多尺度通道的重新校准权重。第四,。最后,可以获得多尺度特征信息更丰富的细化特征图作为输出。

如图4所示,在拟议的PSA中实现多尺度特征提取的基本算子是SPC,我们以多分支方式提取输入特征图的空间信息,每个分支的输入通道维数为C。通过这样做,我们可以获得更丰富的输入张量位置信息,并在多个尺度上并行处理。因此,可以获得包含单一类型内核的特征图。相应地,可以通过在金字塔结构中使用多尺度卷积核来生成不同的空间分辨率和深度。通过压缩输入张量的通道维数,可以有效地提取每个通道特征图上不同尺度的空间信息。最后,具有不同比例 F i F_i Fi​的每个特征映射具有公共通道维数 C ′ = C / S C^{'}=C/S C′=C/S和 i = 0 , 1 , ⋅ , S − 1 i=0,1,·,S−1 i=0,1,⋅,S−1.注意,。对于每个分支,。然而,随着内核大小的增加,参数数量将得到巨大的改善。为了在不增加计算成本的情况下处理不同核尺度下的输入张量,引入了一种组卷积方法并将其应用于卷积核。

此外,我们设计了一种新的准则,用于在不增加参数数量的情况下选择群大小。可以写成

其中,。烧蚀实验验证了上述方程,特别是当k×k等于3×3,G的默认值为1时。最后,通过以下公式给出了多尺度特征地图生成函数:

其中,,第i个组大小 G i = 2 k i − 1 / 2 G_i=2^{k_i−1/2} Gi​=2ki​−1/2和 F i ∈ R C ′ × H × W F_i∈ R^{C^{'}×H×W} Fi​∈RC′×H×W表示不同比例的特征图。整个多尺度预处理特征图可以通过级联方式获得,如下所示:

其中 F ∈ R C × H × W F∈ R^{C×H×W} F∈RC×H×W是获得的多尺度特征图。通过从多尺度预处理特征图中提取通道注意权重信息,得到不同尺度的注意权重向量。从数学上讲,注意力权重向量可以表示为

这里 Z i ∈ R C ′ × 1 × 1 Z_i∈ R^{C^{'}×1×1} Zi​∈RC′×1×1是注意力权重。。通过这样做,我们的PSA模块可以融合不同尺度的上下文信息,并为高级特征地图产生更好的像素级注意力。此外,为了实现注意力信息的交互,并在不破坏原始通道注意力向量的情况下融合交叉维度向量。因此,,如下所示:

这里⊕ 是concat算子, Z i Z_i Zi​是 F i F_i Fi​中的注意力值,Z是多尺度注意力权重向量。在紧凑的特征描述符 Z i Z_i Zi​的引导下,跨通道使用软注意自适应地选择不同的空间尺度。软分配权重由以下公式得出:

其中,Softmax用于获得多尺度信道的重新校准权重 a t t i att_i atti​,其中包含空间上的所有位置信息和信道中的注意力权重。通过这样做,。然后,以级联方式融合和拼接特征重新校准的通道注意,,如下所示:

其中,att表示注意力交互后的多尺度通道权重。然后,我们将多尺度通道注意力 a t t i att_i atti​的重新校准权重与相应尺度 F i F_i Fi​的特征图相乘为

这里$\odot $表示通道乘法,Yi是指具有获得的多尺度通道注意力权重的特征图。**concatenation算子比求和更有效,因为它可以完整地维护特征表示,而不会破坏原始特征映射的信息。**总之,获得精细输出的过程可以写成

如上述分析所示,我们提出的PSA模块可以将多尺度空间信息和跨通道注意力集成到每个特征组的块中。因此,我们提出的PSA模块可以在局部和全局通道注意力之间获得更好的信息交互。

3.3 Network Design

如图5所示,通过在ResNet的bottelneck块中的相应位置用PSA模块替换3x3卷积,进一步获得了一个名为高效金字塔压缩注意力(EPSA)块的新块。我们的PSA模块将多尺度空间信息和跨通道注意力集成到EPSA块中。因此,EPSA块可以在更细粒度的级别上提取多尺度空间信息,并形成远程信道依赖性。相应地,通过将提出的EPSA块堆叠为ResNet风格,开发了一种新的高效骨干网络EPSANet。该EPSANet继承了EPSA块的优点,因此具有强大的多尺度表示能力,可以自适应地重新校准跨维度通道权重。如表1所示,提出了EPSANet的两种变体,EPSANet(小)和EPSANet(大)。对于拟议的EPSANet(小),在SPC模块中,内核和组大小分别设置为(3,5,7,9)和(1,4,8,16)。拟议的EPSANet(大)具有更高的组大小,并在SPC模块中设置为(32,32,32,32)。

4 Experiments

5 Conclusion

本文提出了一种高效、轻量级的即插即用注意力模块,称为金字塔挤压注意力(PSA)。该PSA模块能够充分提取多尺度空间信息和通道注意向量中跨维度的重要特征。提出的高效金字塔压缩注意力块(EPSA)可以在更细粒度的水平上提高多尺度表示能力,并发展远程信道依赖性。该EPSANet可以有效地整合多尺度上下文特征和图像级分类信息。通过大量的定性和定量实验,验证了与其他传统的通道注意方法相比,所提出的EPSANet在图像分类、对象检测和实例分割方面可以实现最先进的性能。作为我们未来的工作,我们将研究在更轻量级的CNN架构中添加PSA模块的效果。

标签: gsop光电传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台