图像检索的注意力感知广义平均池化

paper题目：ATTENTION-AWARE GENERALIZED MEAN POOLING FOR IMAGE RETRIEVAL

paper吉联科技集团发表arxiv 2018的工作

paper地址：链接

ABSTRACT

由卷积神经网络已经表明， (CNN) 提取的图像描述符在检索问题上取得了显著的效果。本文将注意力机制应用于CNN，旨在增强更多与输入图像中重要关键点相对应的相关特征。通过广义平均值生成的注意力感知特征 (GeM) 池化聚合，然后进行归一化以产生紧凑的全局描述符，该描述符可以通过点积有效地与其他图像描述符进行比较。具有挑战性的新的 ROxford5k 和 RParis6k 本文提出的方法与最先进的方法进行了广泛的比较。结果表明，与以往的工作相比有了显著的改进。特别是本文的注意力感知 GeM (AGeM) 描述符在“Hard在评估协议下优于 ROxford5k 最新的方法。

关键词-卷积神经网络、图像检索、注意力感知广义平均池

1. INTRODUCTION

在计算机视觉中，实例级图像检索的任务是在给定查询图像的情况下，检索与查询对象相同的大数据库中的所有图像。传统上，性能最好的方法取决于局部不变的特征，如SIFT以及基于这些局部特征的聚合策略，如BoW、VLAD或FV。结果表示通常被有效地索引和单独匹配，然后是重新排序阶段。

最近，基于卷积神经网络（CNN）该方法发展迅速。作为第一次尝试，一些工作提出使用全连接层提取的特性，并表现出令人满意的性能。然而，仍然通过非基础 CNN 的方法获得了最先进的结果，并提出了卷积层作为替代方案。这些特征提取器的优点是，固定长度的紧凑表示可以横比的输入图像中生成固定长度的紧凑表示。因此，一系列关于构建竞争图像的策略的论文已经写好了，比如 SPoC、CroW、MAC或R-MAC描述符。当这些方法与适当的后处理技术相结合时，它们首次与基于局部特征的传统方法竞争或优于传统方法。

然而，上述方法的一个主要缺点是图像描述符是直接提取的现成模型，用于分类任务训练。虽然效率很高，但很明显，由于缺乏学习，改进收入有限。 Babenko 等他人提出了第一种用于图像检索的微调方法，这是一组更适合检索任务的新方法landmark在图像上使用分类损失。后来，Gordo 其他人认为，优化的相似度应与最终任务中使用的相似度一致。基于 R-MAC 管道，深度图像检索 (DIR) 网络使用排名损失在干净版本中 Babenko 端到端训练在数据集上进行。同时，Radenovi′c 等人利用运动结构的工作 (SfM) 管道消除了手动收集/清理训练大规模数据集的需要。此外，引入了一种新颖的广义平均值 (GeM) 与以往的工作相比，池化操作获得了更多的性能提升。

受 Wang 受最近工作的启发，插入注意力模块 CNN 为了提高分类任务的性能，通过考虑双分支网络整合（软）注意力机制：与上述主分支工作相同，由最终池层前的基础设施和注意力分支组成，注意力分支应用于基础设施中各种先前块生成的特征图的附加层。然后，通过注意力残差学习机制，将两个分支的输出结合起来，如 [15] 这些特征是通过注意力感知产生的 GeM 操作聚合以产生紧凑的图像表示，称为注意力感知 GeM（AGeM ) 描述符。额外的注意力分支很容易实现，可以通过反向传播进行训练，只会增加很小的计算费用。

2. PROPOSED METHOD

2.1. Network and Pooling

在本文的实验中，选择ResNet-101作为CNN架构。给定输入图像，输出最后一卷积层产生的特征图，其形式为 X ∈ R W × H × K \mathcal{X} \in \mathbf{R}^{W \times H \times K} X∈RW×H×K，其中 K K K表示通道的数量。总是假设应用程序ReLU激活。用 X k ∈ R W × H \mathcal{X}_{k} \in \mathbf{R}^{W \times H} Xk∈RW×H表示 X \mathcal{X} X的第 k k k个特征图，应用池化操作产生一个代表 X k \mathcal{X}_{k} Xk的数字 F k F_{k} Fk，这样输入图像就可以用向量 [ F 1 , … , F K ] T \left[F_{1}, \ldots, F_{K}\right]^{\mathrm{T}} [F1,…,FK]T表示。然后，这个向量被 ℓ 2 \ell^{2} ℓ2归一化，以便具有单位规范。

两种最简单的池化方法是分别对应于SPoC和MAC描述符的平均池化操作和最大池化操作，它们已经在标准基准测试中取得了具有竞争力的良好结果。为了进一步提高性能，在[12]中使用广义平均（GeM）池作为替代，其中相应的GeM描述符由下式给出 [ F 1 ( G e M ) , … , F K ( G e M ) ] T , F k ( G e M ) = ( 1 ∣ X k ∣ ∑ x ∈ X k x p k ) 1 p k ( 1 ) \left[F_{1}^{(\mathrm{GeM})}, \ldots, F_{K}^{(\mathrm{GeM})}\right]^{\mathrm{T}}, \quad F_{k}^{(\mathrm{GeM})}=\left(\frac{1}{\left|\mathcal{X}_{k}\right|} \sum_{x \in \mathcal{X}_{k}} x^{p_{k}}\right)^{\frac{1}{p_{k}}}\quad(1) [F1(GeM),…,FK(GeM)]T,Fk(GeM)=(∣Xk∣1x∈Xk∑xpk)pk1(1) 它通过采用 p k = 1 p_{k}=1 pk=1和 p k → ∞ p_{k} \rightarrow \infty pk→∞来概括SPoC和MAC。更重要的是，GeM pooling是一种可微操作，因此可以以端到端的方式训练整个网络。

在 (1) 中，每个特征图 X k \mathcal{X}_{k} Xk都有不同的池化参数 p k p_{k} pk。但是，也可以对所有特征图使用共享参数 p p p。最后，对于 ResNet-101，有 K = 2048 K=2048 K=2048，因此上述每个描述符都是 2048-D 紧凑图像表示。

2.2. Attention-Aware GeM

现在描述注意力感知 GeM (AGeM) 描述符的构建。给定一个输入图像，ResNet-101 架构的第一个块由一个 7 × 7 7 \times 7 7×7卷积和一个 3 × 3 3 \times 3 3×3最大池化组成，以产生通道大小为 64 的特征激活输出。然后还有四个残差块，表示为 { B 2 , B 3 , B 4 , B 5 } \left\{B_{2}, B_{3}, B_{4}, B_{5}\right\} { B2,B3,B4,B5}， 1 × 1 1 \times 1 1×1和 3 × 3 3 \times 3 3×3卷积层在每个块内产生相同大小的特征图。对于 i ∈ { 2 , 3 , 4 , 5 } i \in\{2,3,4,5\} i∈{ 2,3,4,5}，用 B i , j B_{i, j} Bi,j表示 B i B_{i} Bi的第 j j j个残差单元， X i , j \mathcal{X}_{i, j} Xi,j是 B i , j B_{i, j} Bi,j最后一层产生的特征图。请注意，对于 i = 2 i=2 i=2（分别为 3、4 和 5）， X i , j \mathcal{X}_{i, j} Xi,j的通道大小为 256（分别为 512、1024 和 2048）。

本文的网络架构由两个分支组成。首先，在最终池化层之前有一个与 GeM 完全相同的主分支，它获取输入图像并从 ResNet-101 的 B 5 , 3 B_{5,3} B5,3生成特征图 X 5 , 3 \mathcal{X}_{5,3} X5,3。对于注意力分支，添加了三个注意力单元，分别表示为 Att1、Att2_1 和 Att2_2，它们应用于由 B 4 , 23 , B 5 , 1 B_{4,23}, B_{5,1} B4,23,B5,1和 B 5 , 2 B_{5,2} B5,2生成的特征图 X 4 , 23 \mathcal{X}_{4,23} X4,23, X 5 , 1 \mathcal{X}_{5,1} X5,1和 X 5 , 2 \mathcal{X}_{5,2} X5,2。 Att1 单元由内核大小分别为 3 × 3 , 3 × 3 , 1 × 1 3 \times 3,3 \times 3,1 \times 1 3×3,3×3,1×1和 1 × 1 1 \times 1 1×1的四个卷积层组成，第一层的步长为 2，其余的步长为 1。对于 Att1 的四层，输出通道大小分别为 1024、512、512 和 2048，此外，每个卷积层之后是BN和ReLU激活，除了最后一层由sigmoid函数。相比之下，Att2_1 和 Att2_2 都只包含一个卷积层，内核大小为 1 × 1 1 \times 1 1×1，步长为 1，输出通道大小与输入通道大小相同，然后是 sigmoid 激活。

在前馈过程中，Att1 应用于 X 4 , 23 \mathcal{X}_{4,23} X4,23生成注意力图 A 4 , 23 \mathcal{A}_{4,23} A4,23，然后通过 Hadamard 乘积与 X 5 , 1 \mathcal{X}_{5,1} X5,1组合（表示为 ⊗ \otimes ⊗）。同样，Att2_1 应用于 A 4 , 23 ⊗ X 5 , 1 \mathcal{A}_{4,23} \otimes \mathcal{X}_{5,1} A4,23⊗X5,1产生 A 5 , 1 \mathcal{A}_{5,1} A5,1，Att2_2 应用于 A 5 , 1 ⊗ X 5 , 2 \mathcal{A}_{5,1} \otimes \mathcal{X}_{5,2} A5,1⊗X5,2产生 A 5 , 2 \mathcal{A}_{5,2} A 标签： fv1连接器

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

(arxiv-2018)图像检索的注意力感知广义平均池化

图像检索的注意力感知广义平均池化

ABSTRACT

1. INTRODUCTION

2. PROPOSED METHOD

2.1. Network and Pooling

2.2. Attention-Aware GeM

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

(arxiv-2018)图像检索的注意力感知广义平均池化

图像检索的注意力感知广义平均池化

ABSTRACT

1. INTRODUCTION

2. PROPOSED METHOD

2.1. Network and Pooling

2.2. Attention-Aware GeM

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录