用于行人重识别的多级多尺度水平池化网络
paper题目:Multi-level and Multi-scale Horizontal Pooling Network for Person Re-identification
paper由东北大学出版Multimedia Tools and Applications volume 2020的工作
paper地址:链接
Abstract
尽管最近取得了显著进展,但行人重新识别方法要么在丢失关键身体部位时失败,要么应用于一系列不同复杂程度的图像。为了缓解这些问题,引入了一个简单有效的多层次、多尺度的池网络(MMHPN)重新识别人。研究贡献有三个方面:1)考虑不同池规模和语义水平的一些特征,以获取一些信息,增加鲁棒性; 2)提出了一种自适应池化策略(APS)加权求和作为全局平均池化和全局最大池化,可进一步提高部分特征的可辨性; 3)引入一个Part Sensitive Loss(PSL)为了促进容易分类的分区的影响,函数可以减少person Re-ID网络训练。使用 Market-1501、DukeMTMC-ReID 和 CUHK03 数据集的实验结果表明,提出的 MMHPN 优于最先进的方法。使用 Market-1501、DukeMTMC-ReID 和 CUHK03 数据集的实验结果表明,提出的 MMHPN 优于最先进的方法。具体来说,这些具有挑战性的数据集已经获得 83.4%、75.1% 和 65.4% 的 mAP 分数。
关键词:多层次、多尺度、水平池网络、自适应池策略、部分敏感损失、行人重识别。
1 Introduction
给感兴趣的人查询,重新识别行人 (Re-ID) 该算法的目标是检索包含同一人在指定行人数据库中跨多个不同安全摄像头捕获的图像。近年来,自动行人重识别引起了广泛关注,并已成为现代视频监控系统的重要组成部分。尽管在这一领域取得了进展,但行人重新识别仍然是一个具有挑战性的问题,如遮挡、分辨率低、姿势变化大等。在这些情况下,视觉提示可能会大不相同。为了应对这些挑战,强大的深度学习表示已被广泛应用,并且与手工制作的方法相比取得了显着的性能。
传统的深度学习方法是从人体中提取整体特征。但是,提取全局特征的过程可能会导致一个问题,即非明显区域容易被忽视,无助于提高判断力。为了解决这个问题,许多方法学习了一个有区别的部分,这已经被证明人中 Re-ID 精度比全局特征方法更有效。基于行人重新识别的最先进的方法可分为三组:1)先验知识(如姿势估计)被用作定位区域的结构信息。然而,由于现成的姿势估计模型预测了意想不到的身体标志,Re-ID 性能不可避免地受到影响。 2) 注于注意力的方法侧重于增强显著部分的特征,而所选部分缺乏语义信息。 3) 用于定位部分的边界框是基于区域的方法生成的,但提出的部分通常具有固定的语义,不能代表所有可能的判断部分。此外,这些方法使用最终卷积层的输出来区分人的身份,主要由高级语义特征组成,丢弃了中级语义特征。
行人重新识别任务有两种损失函数,测量损失和softmax损失。如果图像是否属于相同的身份,它只是一个弱标签,测量损失可能会影响效率。相比之下,softmax 利用图像标签对网络参数的培训进行损失监控 Market-150117 和 DukeMTMC-ReID18 数据集的准确性更高。然而,这两个损失函数对每个样本(图像级别)或条带(局部级别)都同样重要,而忽略了图像的复杂性。
本文专注于一些特征的判断,以改善行人 Re-ID 的性能。受水平金字塔匹配(HPM)和Devil in the Middle (DIM)受这两种特征学习策略的启发,提出了一个简单有效的多层次尺度池网络 (MMHPN),充分利用高语义和中间语义的部分信息。具体来说,本文做出了以下三项贡献。
-
将由不同卷积层产生的深度特征图水平分割成不同大小的分区条带,用于多级和多尺度池化,如图 1 所示。然后独立分类每个部分的条带。直观地说,整合不同层次的多层次语义信息往往会提高上下文的不变能力,通过金字塔池学习多层次信息可以提高一个人的判断特征。结合上述两种策略的优势,使整体和局部特征更加强大和判断。
-
作为每个分区中最大/平均池化的替代方案,提出了自适应池化策略(APS)作为全局平均池化(GAP)全局最大化池化(GMP)自动平衡各分区的重要性。 Max pooling 注重显著的局部特征,但未能利用被考虑的人的全局信息。平均池化代表全局信息,但很容易导致对身体区域的过度估计。自适应地结合它们不仅可以利用它们的互补性来增强特征识别能力,还可以平衡全局信息和局部信息之间的有效性。
-
部分敏感损失(PSL),在训练过程中,我们应该更加关注困难的场景和分区条带。其动机是,在更新网络时,简单的例子或条纹不应占主导地位。因此,减少对简单例子的贡献,以促进行人识别网络的训练。
使用当前的基准人员重新识别数据集进行性能评估,并证明提出的方法可以实现最先进的性能。 Market-1501、DukeMTMC-ReID 和 CUHK03 数据集上的 mAP 分数分别为 83.4%、75.2%、65.4%。
图 1 提出的多层次、多尺度水平池网络示意图。人们从多个尺度和语义层次分为不同的水平条纹。然后使用每个条纹 APS 特征是独立学习一个人的身份。请注意, ? \bigoplus ?代表 GAP 和 GMP 之间的加权和。
2 Related Work
深度学习方法的成功在于 2014 年扩展到 person Re-ID 社区,当时 person Re-ID 首次考虑使用成对图像来学习人体部位的潜在特征 Siamese 网络架构。这种方法的性能超过了现有的手工 Re-ID 方法。在学习特征表达和距离度量的同时,提出了许多基于深度卷积神经网络的方法。例如,Ahmed 通过使用一个输入图像的特征与另一个图像附近位置的特征之间的减法来测量特征的相似性,从而提高特征的相似性 Siamese 网络。最近的工作也开始利用中级特征的有效性。 Yu 等人提出了一个简单的方法,将中间层和最后一层特征图集成为表示,然后使用它 softmax 函数来预测人的身份。本文提出的中高级语义分支中的各级特征图由独立的敏感损失监督,而不是整合所有特征图,然后是 softmax 损失。
最近,基于深度学习的行人重识别方法已经证明其性能高于以前的方法。 Zhang通过匹配最短路径和手动学习距离度量,等待人们使用部分对齐来促进整体特征。 Sun等待人们将特征图在垂直方向上切割成六条条纹,以表示局部部分,并将其连接起来作为最终特征表示。不幸的是,假设包含人的图像对齐良好,这种方法很容易因异常值而出错。要解决这个问题,Li等人提出水平金字塔匹配 (HPM) 网络,结合松弛距离来缓解异常值问题,但它将特征图分成条纹,分为同一卷积层。在提出的 MMHPM 在不同的卷积层中,将特征图分为四个尺度,以整合中高级语义特征,从而有效区分人的身份。
运用这一策略,论证了性能的提高,可以得出结论:结合身体部位的局部表征是提高模型判断能力的最有效途径。正如第一节所讨论的,基于部分的深度方法分为三类。第一类是使用额外的工具,如姿势估计和landmark检测分析行人。特别是,Su等人制定了由姿势驱动的深度卷积(PDC)为了克服姿势变形和视角变化,模块和特征加权子网络。其次,有几项工作将注意力机制整合到人的突出部分Re-Id并报告了显著的改进。第三,基于区域的方法被用来定位基于区域的几种方法中的语义部分。Yao其他人提出了一些损失网络,它自动生成一组框架作为身体部位,并独立学习每个部位的分类。在提出的方法中,本文用简单的水平条纹,并使用多金字塔尺度作为局部特征学习的一部分。
通常,两种损失函数被用作行人重新识别的监督信号:测量损失和分类损失。嵌入学习中使用的第一个测量损失,person Re-ID 被认为是排序问题,其中一对或三组图像被输入类似 Siamese 的网络中。例如,在验证网络中使用比较损失来确定一对图像是否相似,这鼓励网络更接近类内对,并促进类间图像的距离。该损失函数有效,适用于人员 Re-ID 由于其检索性质,任务自然减少了个人内部的变化。然而,该模型的性能受到大型行人数据库的限制。一对图像是否相似,只是一个弱标签,没有充分利用 Re-ID 身份注释。与上述方法不同,其他工作将是行人 Re-ID 不是排序问题,而是识别问题。由于对各种分类任务都有很强的鲁棒性,softmax loss 作为监管信号仍然是首选。此外,集成度量损失和分类损失是可能的被认为是提高人员重识别整体性能的一种方式。采用三元组损失和 softmax 损失作为联合监督来训练卷积神经网络 (CNN),在使用基准数据集时取得了显著的性能。然而,上述损失函数在训练阶段都平等地对待简单和复杂的图像
。
3 Method
本节首先概述所提出的多级多尺度水平池化网络(MMHPN)。然后展示了所提出的多层次和多尺度水平池化框架和部分敏感损失的细节。
3.1 Overview of network
MMHPN的结构如图2所示。将包含人的图像输入到backbone网络中以提取特征图。然后特征图依次经过 res_conv5_1、res_conv5_2 和 res_conv5_3 块(见图 2),将这个具有高级信息的简单流定义为全局分支。在此过程中,为了使提取的特征图在不同语义级别上具有判别性,在中间语义级别引入了两个局部分支,分别紧跟在 res_conv5_1 和 res_conv5_2 块之后。全局分支和局部分支没有分离,因此它们对于学习特征嵌入是互补的。利用不同尺度的水平池化模块来捕获全局和局部条带中的空间信息。对于每个水平条带,使用 APS 将特征图转换为向量,这会自动平衡 GAP 操作和 GMP 操作之间的重要性。然后 MMHPN 利用独立卷积层将通道维度从 2048 减少到 256。最后,每列特征向量独立输入到分类器中,分类器由独立全连接(FC)层和 softmax 层组成,以预测每个输入图像的 ID。在训练期间,通过最小化 ID 预测的全局和局部分支上的部分敏感损失的总和来监督 MMHPN。在测试阶段,将所有特征向量连接起来形成一个 3780 维描述符,其中包含不同语义级别和池化尺度的信息。
图 2 多层次多尺度水平池化网络概述。输入图像首先通过 ResNet-50(在 res_conv5 之前)提取特征图。然后在中间语义级别的 res_conv5_1 和 res_conv5_2 之后引入两个局部分支以增强判别信息。然后,使用自适应池化策略使用不同尺度的池化来生成每个条带的特征表示。最后,为每个条带分配一个独立的分类器来预测部分级别的人身份。在测试过程中,将不同尺度和语义级别的条带特征连接起来,形成每个图像的最终表示。
3.2 Multi-level and Multi-scale Horizontal Pooling Module
3.2.1 Backbone Network
所提出的 MMHPN 的backbone是 ResNet-50,与其他行人 Re-ID 系统相比,具有相对简洁的架构以获得具有竞争力的性能并与以前的方法保持一致以进行公平比较。对原始 ResNet-50 进行了一些细微的修改。首先,去除全局平均池化层和后续层。此外,res_conv4_1块的步长设置为1,这将特征图从原始图像大小的 1/32 放大到 1/16,以提供更丰富的空间性和检测特征的粒度。最后,紧跟 res_conv5_1 和 res_conv5_2 之后的两个局部分支被添加以学习中级语义特征,如图 2 所示。
3.2.2 Multi-level Semantic Module (MSM)
一个有效的person Re-ID模型应该具备在不同语义级别提取判别特征的能力。然而,大多数现有的人 Re-ID 系统直接利用深度神经网络,通常设计用于对象识别,并采用具有高级语义特征的最终层输出作为表示。结果,中级特征被遗漏,无法有效判别身份。因此,深度人员重识别必须在融合模块中混合中高级语义特征。
在图 2 中采用了多级语义分支,将具有局部信息的上、中分支定义为中级语义分支。将包含全局信息的底部分支表示为高级语义分支。此外,两个中级分支也被视为连接到 res_conv5_1 和 res_conv5_2 块的辅助分类器,以增加梯度信号,鼓励中级区分,并提供额外的正则化。
如图 3 所示,当缩小表示区域的区域以学习局部特征时,可以观察到网络鼓励局部注意力图的响应开始聚集在一些在全局注意力图中未利用的显著语义模式上。从上述观察中,可以得出结论,小尺度的身体部位倾向于学习头部、裤子和鞋子等中级细节,而大尺度的身体部位将利用高级语义信息。因此,在局部分支将特征图分割成 8、4 和 2 个条带,以使系统能够专注于中级信息,如图 2 所示。全局分支包含完整的特征图,没有任何分区信息。结果,将分别具有高级和中级语义信息的全局和局部表示结合起来,形成判别性人 Re-ID 模型的最终特征描述符。
图 3 不同模型最后一次卷积输出产生的不同尺度的注意力图。第二列:行人图像。第一列:IDE 模型的全局注意力图。第三列:四个局部注意力图,对应于人物图像的四个条纹,由基于部分的模型产生。
3.2.3 Multi-scale Horizontal Pooling Module (MHPM)
由于全连接层需要一个固定长度的向量,卷积神经网络必须接受一个固定大小的输入图像,这通常与行人图像以及身体部位的图像相矛盾,这些图像通常是不同的大小或比例。结果,由于输入图像的规模有限,识别精度受到影响。
为了消除对任意大小的输入图像的要求,采用了HPM的概念,它在四个尺度上拆分和汇集特征图。如图 3 所示,所提出的多尺度池化模块有四个尺度,每个尺度的输出特征图分别被分成 8、4、2 和 1 个条带,并对每个条带应用自适应池化策略。通过应用多尺度水平池化,既可以获得不同大小的身体部位的固定维向量,也可以捕获从全局到局部、从高级到中级、从粗到细的分区的判别表示.此外,全局和局部线索以四个尺度叠加在一起,这有助于使最终预测更加可靠,尤其是在关键部分缺失的情况下。
3.2.4 Adaptive Pooling Strategy
平均池化通常利用身体的全局范围,但容易估计不相关的背景,而最大池化侧重于最显著的局部区域,但缺乏判别信息。直观地说,自适应地集成 GAP 和 GMP 适合自动平衡每个条带中全局和局部信息之间的有效性。为此,提出了一种使用 GAP 和 GMP 操作的加权求和的自适应池化策略 (APS)。具体来说,所提出的 MMHPN 有四个尺度,在每个尺度中,从backbone网络 B B B继承的特征图被水平且均等地划分为特定数量的条带。将第 i i i个尺度中的第 j j j个条纹表示为 B i , j B_{i, j} Bi,j。请注意,索引 i i i和 j j j从上到下递增。然后,通过 GAP 和 GMP 操作的加权和对每个条带进行池化,以获得特征向量 V i , j V_{i, j} Vi,j。 V i , j = avgpool ( B i , j ) + ω i maxpool ( B i , j ) V_{i, j}=\operatorname{avgpool}\left(\mathrm{B}_{i, j}\right)+\omega_{i} \operatorname{maxpool}\left(\mathrm{B}_{i, j}\right) Vi,j=avgpool(Bi,j)+ωimaxpool(Bi,j) 其中 ω i {\omega_{i}} ωi表示可学习的参数,并以相同的比例共享。本文也尝试在同一个分支中设置每个条带共享参数 ω \omega ω,但是由于上分支条带尺度的明显差异,Re-Id模型无法收敛。通过这种设计,不同尺度的每个分区可以通过自适应调整学习参数 ω \omega ω来自愿选择更多地关注全局信息或局部信息。然后使用卷积层将每个尺度的通道尺寸从 2048 减少到 256。最后,将这些具有相同索引 i i i的降维向量 R i , j R_{i, j} Ri,j连接起来,以获得行人图像的最终特征描述符。
3.3 Part sensitive loss
考虑到对各种多类分类任务的强鲁棒性,在提出的 MMHPN 中使用 softmax 损失来增强深度表示的判别能力。如第 3.1 节所述,不同语义级别的三个分支在学习行人图像的判别描述符方面具有互补优势。为了最大化这些互补效应,网络的三个分支被联合训练,以全局和局部特征学习的方式来区分人的身份。利用一个非共享的全连接层作为每个条带的分类器。具体来说,将每个特征列向量 R i , j R_{i, j} Ri,j输入到相应的分类器 F C i , j F C_{i, j} FCi,j中,并使用 softmax 层来预测人的身份。在训练阶段,将每个人视为一个类,并将 MMHPN 视为将给定图像映射到一组预测 z i , j ∧ z_{i, j}^{\wedge} zi,j∧的函数;每个 z i , j ∧ z_{i, j}^{\wedge} zi,j∧可以表述为: z i , j ∧ = exp ( ( W i , j y ) T R i , j ( I ) ) ∑ n = 1 N exp ( ( W i , j n ) T R i , j ( I ) ) , z_{i, j}^{\wedge}=\frac{\exp \left(\left(W_{i, j}^{y}\right)^{T} R_{i, j}(I)\right)}{\sum_{n=1}^{N} \exp \left(\left(W_{i, j}^{n}\right)^{T} R_{i, j}(I)\right)}, zi,j∧=∑n=1Nexp((Wi,jn)TRi,j(I))exp((Wi,jy)TRi,j(I)), 其中 y y y是输入图像 I I I的ground truth identity, N N N表示训练数据集中个体的总数, W i , j W_{i, j} Wi,j定义为 F C i , j F C_{i, j} FCi,j中的学习权重。该样本的损失函数由下式计算预测概率 z i , j ∧ z_{i, j}^{\wedge} zi,j∧的 softmax loss 总和。 L softmax = − ∑ m = 1 M ∑ i , j log ( z ^ i , j m ) , L_{\text {softmax }}=-\sum_{m=1}^{M} \sum_{i, j} \log \left(\hat{\mathrm{z}}_{i, j}^{\mathrm{m}}\right), Lsoftmax =−m=1∑Mi,j∑log(z^i,jm), 其中 M 是训练阶段中小批量的大小。
然而,使用 softmax 损失的一个显著问题是,在训练过程中,每个示例或条带都被赋予了相同的重要性。这会导致 softmax 损失,忽略示例或条纹的难易程度。 z i , j ∧ ≥ 0.5 z_{i, j}^{\wedge} \geq 0.5 zi,j∧≥0.5的简单例子会产生非平凡的损失。当对大量简单示例求和时,这些小的损失值压倒了具有复杂照明、变形和尺度变化的有价值的、稀有的和困难的示例。因此,易于分类的示例或条纹构成了 softmax 损失的大部分,并主导了梯度。因此,提出了一个部分敏感损失(PSL)来鼓励网络更多地关注困难的例子或条纹,并在训练分类器时减少简单的例子的贡献。使用softmax函数将具有相同索引 i i i和不同索引 j j j的每个条带的预测概率 z i , j z_{i, j} zi,j用于获得整个身体的容易和困难度 d i , j d_{i, j} di,j。因此 d i , j d_{i, j} di,j可以定义为: d i , j = exp z i , j ∧ ∑ p = 1 P exp z i , p , ( 3 ) d_{i, j}=\frac{\exp z_{i, \mathrm{j}}^{\wedge}}{\sum_{p=1}^{P} \exp z_{i, \mathrm{p}}},(3) di,j=∑p=1Pexpzi,p