资讯详情

(arxiv-2022)具有自适应距离对齐的时空步态特征

具有自适应距离对齐的时空步态特征

paper题目:Spatio-temporal Gait Feature with Adaptive Distance Alignment

paper是IEEE Fellow Xuelong Li发表在arxiv 2022的工作

paper地址:链接

Abstract

步态识别是一种重要的识别技术,因为它不容易伪装,重要的识别技术。然而,步态识别仍存在严重挑战,即步态相似的人经常被错误识别。本文试图从网络结构结构和细化提取的步态特征两个方面增加不同目标的步态特征差异,从而提高识别具有相似步行姿势的目标的效率。所以我提取了这篇文章的方法,它是从时空特征中提取出来的 (SFE) 对齐自适应距离 (ADA) 组成,其中 SFE 融合使用时间特征 (TFF) 提取细粒度特征 (FFE) 时空特征从原始轮廓中有效提取, ADA 以现实生活中大量未标记的步态数据为基准,细化提取的时空特征,使其相似性低,类内相似度高。在 mini-OUMVLP 和 CASIA-B 大量的实验明,本文的结果优于一些最先进的方法。

关键词-步态识别、时空特征提取、特征调整。

I. INTRODUCTION

与虹膜、指纹、人脸等生物特征不同,步态在识别过程中不需要目标的配合,在不受控制的情况下可以远距离识别目标。因此,步态广泛应用于法医鉴定、视频监控、犯罪侦查等领域。作为一项视觉识别任务,其目的是学习不同目标的特征。然而,从原始步态序列中学习时空特征往往会受到许多外部因素的干扰,如各种相机角度、不同衣服/携带条件等。

提出了许多基于深度学习的方法来克服这些问题。 DVGan 使用 GAN 生成整个时角空间,其视角从 0° 到 180°,间隔为 1°,适应各种摄像机角度。 GaitNet 使用自编码器作为他们的框架 RGB 在图像中学习与步态相关的信息。它还使用 LSTM 为了克服不同的衣服/携带条件,学习时间信息的变化。 GaitSet从独立帧组成的集合中学习身份信息,以适应各种视角和不同的服装/携带条件。 Gaitpart人体描述采用一些特征,以增强细粒度学习。

以往的方法要么只关注时间特征的处理,要么只关注细粒度特征的提取,不能保证同时充分提取时空信息。为了解决这个问题,尝试整合时间特征(TFF)融合最具代表性的时间特征,然后提取细粒度特征(FFE)细粒度特征从最具代表性的时间特征中提取,经过这些操作,原始步态轮廓的时空特征可以完全提取。然而,当两个行走姿势相似的目标遇到时,完美的网络结构只能保证其步态特征的充分提取,而不能保证其判断力。为了解决这个问题,作者尝试使用自适应距离对齐技术从未标记过的数据中选择合适的基准来细化提取的时间和空间特征,可以有效地增加类似步行受试者的步态特征差异。因此,提出了由时空特征提取的自适应距离对齐的时空步态特征(SFE)对齐自适应距离(ADA)组成。 SFE 包括 FFE 和 TFF。

具体来说,每个初始帧都输入了 TFF 最具代表性的时间特征是通过最大的池化来选择的。之后,作者将最具代表性的时间特征分成 4 单个卷积层用于提取细粒度特征。最后,使用 ADA 细化提取的时空特征,使其具有低相似度和高相似度。

本方法的优点将从以下三个方面描述:

  • 在 TFF 利用最大池融合最具代表性的时间特征,然后将最具代表性的时间特征分为 4 块提取细粒度的空间特征。本部分采用简化的时空特征提取模块,能有效学习原步态序列的时空特征。

  • 改进了距离对齐技术,并将其应用于步态识别领域。改进的距离对齐技术采用自适应的方法,从现实生活中未标记的数据中选择合适的基准,然后利用该基准细化提取的时空特征,可以有效增加相似步行姿势受试者的步态特征差异。

  • 提出了一种具有自适应距离对齐的时空步态特征的方法。它能有效地从原始步态轮廓中提取时空特征,增加不同目标之间的差异。对 CASIA-B 和 mini-OUMVLP 大量实验证明,本文的方法比其他最先进的方法有更好的效果。值得注意的是,本文的方法在正常步行条件下 CASIA-B 实现了步态数据集 97.0% 的平均 rank-1 准确度。

II. RELATED WORK

本部分主要介绍了步态识别的相关工作,将从以下几个方面开始:步态识别的主要方法,从原始步态轮廓中学习时空信息的演变和距离对齐的灵感。

步态识别。目前的步态识别方法可分为基于模型和外观的方法。基于外观的方法通过卷积神经网络(CNN)直接从步态序列的原始轮廓中学习时空特征,然后通过特征匹配来判断步态序列的目标身份。基于模型的方法首先建模步态序列中的原始轮廓,然后使用新的方法来表达原始轮廓,并学习它们的时空特征。基于模型的代表性方法是JointsGait,它利用原始步态轮廓的人体关节创建步态图结构,然后通过图卷积网络 (GCN) 时空特征从步态图结构中提取。然而,当用这种方法来表达步态序列中的轮廓时,往往会丢失很多重要的细节信息,增加识别难度。其他基于模型的方法也遇到了这个问题,因此基于外观的方法已经成为最主流的步态识别方法。本文后面提到的方法都是基于外观的方法。

时空特征提取模块。时空特征提取的效率是衡量基于外观的方法质量的重要因素,会影响识别的准确性。时空特征提取模块可分为空间特征提取模块和时间特征提取模块两部分。

基于深度学习的方法和传统方法是时间特征提取模块。传统的方法首先通过一些操作将原始步态轮廓压缩成图像,例如 GEI、PEI 和 CGI。然后利用神经网络从图像中提取时空特征。尽管这些传统方法很简单。以下研究人员发现,他们不能很好地保存时间信息,并尝试使用基于深度学习的方法来提取时间特征。 LSTM使用重复的神经网络模块来保存和提取原始步态序列的时间信息。 GaitSet观察到,即使步态序列被打乱,也不难将其重新排列为正确的顺序,然后使用打乱的轮廓来学习时间和空间信息,以确保各种步态序列的适应性。但是 LSTM 和 GaitSet 它们的网络结构和计算过程都很复杂。本文试图从原始步态轮廓中提取多个并行卷积层的整体特征,并使用简单的最大池操作来整合最具代表性的时间特征。这样可以简化网络结构,减少计算量,有效提取时间特征。值得注意的是,本文的方法只使用了 4 个卷积层和 2 个池化层。

在[43]中引入了空间特征提取模块partial认为不同的人体部位在识别身份信息方面会起到不同的作用。因此,通过去除平均步态图像中的七个部分,观察识别率的变化,将人体分为七个不同的部分,探索不同部分对步态识别的影响。为目前局部思想的使用奠定了基础。 GaitPart在深度学习领域,利用这一思想描述人体,充分提取细粒度信息,分块提取细粒度特征,取得了良好的效果。但是,GaitPart 采用了partial in shallow features 将多层特征划分为block,增加了网络的复杂性。本文仅对高层特征进行一次划分,以提取细粒度特征,仅使用单个卷积层就能获得良好的性能。它还极大地简化了网络结构。

对齐自适应距离。距离对齐技术首先用于细化人脸特征,具有良好的性能。它利用大量未标记的数据来判断真实场景中特征分布的流行密度,并在此密度的基础上细化提取的时空特征,将收敛性差的特征收敛在一起,将特征分散收敛过紧。人脸识别任务和步态识别任务的本质目的是通过特征匹配来识别目标的身份。由于这两个任务的相似性,作者试图改进距离对齐技术,并将其引入步态识别领域。前面的距离对齐首先计算未标记数据集的特征与图库集和探针集中提取的时空特征之间的距离,然后通过计算距离从未标记的数据中选择一些与提取的时空特征相似的特征,从这些特征中选择最大值作为提取的时空特征的基准。这种操作可以取得很好的效果,但它只使用最大值类似于未标记数据中提取的时空特征,因此这些类似特征没有得到充分利用。本文充分利用这些相似的特征,从整体适应性(mean)、最大(maximum)、最适中(median)选择最合适的三个方面benchmark,达到最佳的细化效果。将改进的距离对齐称为自适应距离对齐技术。

结合时空特征提取模块的发展和距离对齐的启发,提出了时空步态特征与自适应距离对齐的方法。它使用最大池化来融合最具代表性的时间特征,在高级特征上引入部分思想,改进距离对齐,并将其引入步态识别。它不仅通过时空特征提取模块有效地从原始步态轮廓中提取时空特征,还利用自适应距离对齐技术细化提取的时空特征,从而增加不同目标之间步态特征的区别。

III. OUR METHOD


本文将从三个方面介绍本文的方法:包括整体装配线、时空特征提取(SFE)对齐模块和自适应距离(ADA),时空特征提取主要包括粒度特征提取两部分(FFE)融合时间特征(TFF)。提出方法的框架如图1所示。

图1

图 1. 本文方法的框架。本文的框架由时空特征提取两部分组成(SFE)对齐模块和自适应距离(ADA)。 SFE模块主要是优化神经网络结构。 ADA是对图库集和探针集中提取的时空特征的细化。在图的底部,用圆圈来表示特征,以便于查看特征的分布。

A. Pipeline


如图 1 所示,本文的网络主要由两部分组成:SFE 模块和 ADA。 SFE模块主要是神经网络结构的优化,它可以通过简单的网络结构有效地提取原始步态序列的时空特征。 ADA是一种后处理方法,主要以现实生活中大量未标记的步态数据为基准,对提取的时空特征进行细化,可以增加不同目标间步态特征的差异。

具体来说,在 SFE 部分,首先将一些原始步态轮廓逐帧输入到 TFF。 TFF 使用 Feature Extraction Module (FEM) 来学习每一帧的全局信息,FEM 只包含 4 个卷积层和 2 个 Max pooling 层,它可以保证每一帧的详细信息都能被充分学习,然后使用简单的操作max从提取的全局特征中融合最具代表性的时间特征。它可以在保证时间信息被充分提取的同时简化网络结构,减少计算量。在 TFF 之后,将最具代表性的时间特征输入到 FFE 以学习细粒度特征。代表帧首先被分为 4 个部分,然后仅使用一个卷积层来学习其细粒度信息。 TFF 和 FFE 都使用简单的网络结构。然后将提取的时空特征输入到下一部分。这部分使用由max pooling和mean pooling组成的Global Pooling来选择从每个块中提取的合适的细粒度特征。全连接层在全局池化之后,它可以整合之前提取的特征。最后,使用hard三元组损失作为微调网络参数的限制。

在 ADA 部分,首先从现实生活中找到大量未标记的步态数据,然后使用经过训练的 SFE 模块从未标记的步态数据集中提取时空特征,并将这些提取的时空特征作为调整集。然后计算调整集中这些特征与从原始步态序列中提取的时空特征之间的距离,并通过计算的距离从调整集中选择4个与提取的时空特征相似的特征。最后,适应性的从这些选择的特征中从整体(mean)、最大(maximum)和最适中(median)三个方面选择最合适的基准,并使用基准来细化提取的时空特征。

B. Spatio-temporal Feature Extraction module


这部分提出的模块主要是试图简化神经网络的结构,减少计算量,同时保证原始步态序列的时空特征能够被充分提取。将从 TFF 和 FEE 来介绍:其中 FFE 表示 Fine-grained Feature Extraction,TFF 表示 Temporal Feature Fusion。

  1. 时间特征融合:TFF 由多个并行 FEM 和一个最大池化层组成,其中 FEM 的参数是共享的。 FEMs用于从每一帧中提取全局特征,它们可以充分提取每一帧的重要信息。最大池化用于从每帧提取的全局特征中选择最具代表性的时间特征。接下来将介绍 FEM 的结构以及可以做些什么来有效地融合这些复杂的时间信息以获得最具代表性的时间特征。

如表1所示,FEM 仅使用 4 个卷积层来提取原始轮廓的全局特征,并使用 2 个 Max pooling 层来选择这些全局特征的重要信息。这些操作可以充分提取每一帧的全局特征。然后尝试使用各种操作:max、mean、medium 来融合提取的全局特征中的代表帧,然后发现使用 max 操作可以更好地保留人类身份信息。最大操作定义为 T = Maxpooling ⁡ ( T i ) , i ∈ 1 , 2 , … , N . T=\operatorname{Maxpooling}\left(T_{i}\right), i \in 1,2, \ldots, N . T=Maxpooling(Ti​),i∈1,2,…,N. 其中 T i T_{i} Ti​是 FEM 从原始步态序列中提取的全局特征, T T T是通过 max 操作从 T i T_{i} Ti​中融合的最具代表性的时间特征。经过此操作,步态序列中最具代表性的时间特征可以很好地融合。

表1 特征提取模块的结构。 IN、OUT、KERNEL和PAD分别代表了CONV2D的输入输出通道、内核大小和填充。

2)细粒度特征提取:在以往的文献中,有研究者发现用局部特征来描述人体有突出的表现。然而,以往的研究都是分析浅层局部特征来描述人体,并且需要在不同的层特征中多次划分以提取细粒度特征,这将使网络结构更加复杂。因此,本文尝试从深层提取细粒度的特征,以简化网络结构并获得更好的结果。将提取的最具代表性的时间特征依次划分为 1、2、4 和 8 个块来学习细粒度信息,其中最具代表性的时间特征是高级特征。可以观察到,当使用 4 个块来学习细粒度特征时,它具有最好的性能。结果表明,当学习细粒度信息时,过度的阻塞并不能使细粒度信息学习得更充分,反而可能会忽略相邻部分之间的关系。还尝试使用更深的卷积层再次学习细粒度信息。但在大多数情况下,它的性能不如单个卷积层。结果有力地证明,在高级特征中使用局部思想时,不需要太深的网络结构来学习细粒度的信息。

具体来说,首先将最具代表性的帧划分为 4 个块。然后使用单个卷积层从每个块中学习细粒度信息。在此之后,使用全局池化和全连接层分别进一步整合细粒度特征和时空信息。 Global Pooling 的公式如下所示 P = Avgpooling ⁡ ( P i ) + Maxpooling ⁡ ( P i ) , i ∈ 1 , 2 , … , N P=\operatorname{Avgpooling}\left(P_{i}\right)+\operatorname{Maxpooling}\left(P_{i}\right), i \in 1,2, \ldots, N P=Avgpooling(Pi​)+Maxpooling(Pi​),i∈1,2,…,N 这两个池化操作都适用于 w 维度。通过这个操作,特征从包含 c、h 和 w 的三维数据变为包含 c 和 h 的二维数据。

步态识别主要使用特征匹配来识别目标。因此,不同目标之间的低相似度和同一目标之间的高相似度是决定识别准确率的重要因素。 hardtriplet loss在降低类间相似度和增加类内相似度方面有很好的表现。所以用这个损失作为约束来调整网络参数。硬三元组损失表示为 L trip  = max ⁡ ( max ⁡ max ⁡ ( d i + ) − min ⁡ ( d i − ) , 0 ) d i + = ∥ f i a i − f i p i ∥ 2 2 d i − = ∥ f i a i − f i n i ∥ 2 2 \begin{gathered} L_{\text {trip }}=\max \left(\max \max \left(d_{i}^{+}\right)-\min \left(d_{i}^{-}\right), 0\right) \\ d_{i}^{+}=\left\|f_{i}^{a_{i}}-f_{i}^{p_{i}}\right\|_{2}^{2} \\ d_{i}^{-}=\left\|f_{i}^{a_{i}}-f_{i}^{n_{i}}\right\|_{2}^{2} \end{gathered} Ltrip ​=max(maxmax(di+​)−min(di−​),0)di+​=∥fiai​​−fipi​​∥22​di−​=∥fiai​​−fini​​∥22​​ 其中 d i + d_{i}^{+} di+​是表示正样本和锚点 ( a i \left(a_{i}\right. (ai​和 p i ) \left.p_{i}\right) pi​)的相异性的度量, d i − d_{i}^{-} di−​是表示负样本和锚点 ( a i \left(a_{i}\right. (ai​和 n i ) \left.n_{i}\right) ni​)的相异性的度量。使用欧几里得范数得到 d i + d_{i}^{+} di+​和 d i − d_{i}^{-} di−​的值。以 d i − d_{i}^{-} di−​的最小值和 d i + d_{i}^{+} di+​的最大值作为代表来计算损失,可以有效地降低类间相似度,增加类内相似度。

C. Adaptive Distance Alignment


在大多数情况下,Triplet loss 可以增加类内相似性并降低目标的类间相似性。然而,当遇到具有相似步行姿势的目标时,triplet loss 并不能保证他们之间的步态特征差异。所以尝试使用后处理的方法对提取的特征再次进行细化,使其更具判别力。引入自适应距离对齐技术来解决这个问题。首先,会在现实生活中发现大量未标记的步态数据。然后,使用经过训练的 SFE 模块从这些未标记的步态数据中提取时空特征。使用这些时空特征作为调整集 K G K_{G} KG​。然后,计算 K G K_{G} KG​中的特征与probe set和gallery set中的时空特征之间的距离,并选择一些与从 K G K_{G} KG​中提取的时空特征相似的特征 F S F_{S} FS​。最后,适应性的从 F S F_{S} FS​中从整体(mean)、最大(maximum)和最适中(median)方面选择最合适的基准,并使用基准来细化提取的时空特征。图 2 显示了完整的特征细化过程。可以清楚地看到,经过ADA细化后,probe set和gallery set中特征的类内相似度和类间相异度有了很大的提高。接下来,将从准备和细化两个部分来介绍ADA。

图 2. 目标 I I I的步态序列和未标记的步态数据 Seqs 都输入到经过训练的 SFE 模块,可以看到从 I I I中提取的特征 F F F的类间差异和类内相似性很小,提取的时空特征来自未标记的被用作调整集 K G K_{G} KG​,以细化从 I I I中提取的特征。经过此操作,特征F的类间相异度和类内相似度都在增加。

  1. 准备工作:这部分主要介绍了用自适应距离对齐来提炼提取的时空特征的准备工作。它可以分为三个部分。第一部分是在现实生活中发现大量未标记的步态数据 S e q s Seqs Seqs时应该遵守的。应确保该集合中未标记的数据应包含适当数量的目标,以确保集合的稳健性。如果目标数量少,则不够具有代表性,如果目标数量多,则会导致类似过拟合的问题。第二步是使用之前提出的 SFE 模块从集合 S e q s Seqs Seqs中提取时空特征。这一步可以看到这些目标的类间相似度和类内相似度应该有多少,并以此为基准来细化probe set和gallery set中的时空特征。最后,将这些从未标记数据中提取的时空特征作为调整集 K G K_{G} KG​。 K G K_{G} KG​

    标签: 连接器eins探针deins探针连接器d

    锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台