文章目录
- 跨视角步态识别具有深度通用线性嵌入
- Abstract
- 1. Introduction
- 2. Related Work
- 3. The Koopman Operators
- 4. Proposed Approach
-
- 4.1. Problem Formulation
- 4.2. Model Architecture
-
- Observation Functions Approximating
- Koopman Matrix Memory
- Discriminative Feature Extractor
- 4.3. Loss Functions
- 4.4. Implementation Details
- Results
- 参考文献
跨视角步态识别具有深度通用线性嵌入
paper题目:Cross-View Gait Recognition with Deep Universal Linear Embeddings
paper北航出版CVPR 2021的工作
论文地址:链接
Abstract
与指纹、虹膜等生物特征符相比,步态因其非侵入性和非合作性而被认为是一种有吸引力的生物特征符。目前,跨视图步态识别方法总是从各种深度卷积网络中建立表示识别,而忽略了步态序列的潜在动态信息。假设行人有不同的步行模式,步态识别可以通过计算每个视角的动态特征来实现。本文将Koopman引入步态识别算子理论可以为非线性动力系统的全局线性接近找到嵌入空间。此外,还提出了基于卷积变分的自编码器和深度 Koopman 接近嵌入式新框架 Koopman 将算子用作跨视角步态识别的线性嵌入空间的动态特征。它为步态识别系统提供了可靠的物理解释。大型公共数据集 OU-MVLP 上述实验证明了提出方法的有效性。
1. Introduction
步态识别旨在通过识别人的体型和行走方式来识别人。与指纹或虹膜等其他生物特征相比,步态不需要测试目标合作,可以在更远的距离实施。此外,它也很难伪装。因此,步态识别可以应用于刑事调查等特殊事务。
虽然进展令人鼓舞,但步态识别仍然受到许多外部因素的影响,如携带条件、不同步幅、服装和相机视角,这些因素会降低步态识别系统的性能。在所有这些挑战因素中,相机视角可能是最困难的。现有的技术证明,单视图步态识别系统的性能将急剧下降。
为了解决这些问题,提出了许多跨视角步态识别的深度学习模型,并取得了良好的效果。一般来说,这些方法可模型的方法可分为两类。前者是过去几年步态识别的主流。这些方法从步态轮廓图像中提取特征,并优化特征空间中的个体内距离,而无需步态周期建模。此外,还提出了结合轮廓序列和局部部分的时间融合单元和部分分割单元的特点。
基于模型的步态识别侧重于通过数学方式从步态序列重建身体结构。三维模型比二维模型传达更多的信息,并且可以构建来表示步态模型。因此,它可以在理论上实现可接受的性能。一些生物力学步态分析也支持这一点。然而,这些方法的性能很容易受到姿态估计的准确性和轮廓序列质量的影响,这限制了它们的发展。
一般来说,基于外观的方法善于表达特征,但存在数据不足的问题,基于模型的方法可以观察差异,但难以构建。虽然深度卷积神经网络 (ConvNets) 它可以提供强大的特征提取器,并在控制场景中实现出色的性能,但现有的模型仍然无法很好地处理视角差异或服装和物品携带的变化。本质上,因为,ConvNet 还是二维模板,人体是三维对象。毫不奇怪,即使有确切的人类数据,该模型仍然无法处理他/她没有集中在训练中 2D 投影。这个问题也被称为计算机视觉不适。
受惯性传感器步态分析、生物力学步态分析和人类步态动态分析的启发,作者意识到动态特征在步态识别中具有竞争力,因为它模拟了人类步态的本质和运动过程,而不是纯人形。因此,与大多数现有的深度学习方法不同,本文从动态系统的角度探索跨视角步态识别。更具体地说,作者介绍了它 Koopman 在流体力学文献中力学文献中非线性系统分析的流行工具。事实上,Koopman 计算机视觉已应用于视频背景分离、图像欺诈和运动检测。至于步态识别,最相关的工作是 Wang 等人的工作[39],应用窗口动态模式分解生成步态能量图像。然而,静态步态特征只在他们的工作中研究。
如图 1 所示,Koopman 该理论侧重于非线性系统的系统线性表示,为表示步态步行周期提供了新的方法。通过近似 Koopman 算子提出了一个新的跨视角步态识别框架(见图 2)。首先,输入卷积变分自动编码器输入对齐轮廓 (VAE) 图像级编码。然后,强制执行额外的约束和损失函数来识别动态线性演变 Koopman 算子。最后,从 Koopman 矩阵中训练一个全连接的网络以获得最终的步态表示。
图 1. 以往的工作侧重于步态轮廓序列的特征融合,搜索具有相同身份特征的小距离判断空间 (a)。本文计算了步态图像的线性进化 Koopman 空间中的动态特征(b),然后从它们的动态特征中识别它们。
总之,作者做出了以下三项主要贡献。
- 将 Koopman 提取步态轮廓的动态特征。这是第一个应用 Koopman 分析研究。
- 自动编码器和深度 Koopman 嵌入提出了跨视角步态识别的新框架。
- 大型步态数据库广泛应用OU-MVLP实验已经进行了。结果证明了本文方法的有效性,为理解步态识别与人类步行动力学的联系做出了重要贡献。
2. Related Work
本节将简要介绍最近的步态识别工作。在深度学习时代之前,时间序列分析方法应用于动态建模等工作。这些模型通常有很强的假设,但它们不能很好地拟合非线性系统。在深度学习时代,ConvNets已在众多计算机视觉任务中被证明是成功的,它也被用于步态识别并取得了令人钦佩的性能。一般来说,基于 ConvNet 基于外观和模型的方法可分为两类。同时,根据输入数据的类型,提出的工作也可分为基于模板和序列的方法。
大多数基于模板的方法用 ConvNets 步态特征从步态能量图像中提取 (GEI)或其他类似 GEI 模板图像。吴等人[43]提出了三种结构不同的结构 ConvNet,并进行了一系列实验,显著提高了跨视角步态识别性能。还提出了一些生成模型,将步态图像从一个视图转换为另一个视角,如自动编码器和生成对抗网络。
有些工作直接从步态轮廓序列建立模型。他们用时间模型跨时间编码信息,如特征图池化、长短期记忆和三维ConvNet。一些关于大型步态数据库的最新作品具有竞争力。GaitSet提出了将步态视为一组轮廓而不是连续序列的新观点。他们认为剪影的外观包含位置信息,这是时间信息的替代品。因此,它们应用简单 ConvNet 帧级步态特征从轮廓中提取,然后利用池化操作将帧级特征聚合成单个集合级特征。张等人[50]提出了一种和 ConvNets 单图像特征提取与组合的模型 LSTM 注意模型用于帧级 ConvNet 注意力分数。GaitPart该模型还提供了一种基于微动作捕捉模块的新型模型。
最近,一些工作专注于基于模型的步态识别方法。它们从步态图像序列中重建人体的数学结构。它比二维数据传达更多的信息,可以构建人体行走的三维数据。因此,它可以通过三维模型旋转来解决跨视角问题。然而,它受到了太多细节的影响,从而减少了crossview步态识别的性能。
3. The Koopman Operators
本节将介绍 Koopman 分解算子和扩展动态模式的基本知识。 Koopman 通过数据驱动的方法,算子是一种线性但无限维的算子。非线性动力系统,Koopman 观察函数将原始状态空间映射到嵌入空间中,动力学将在嵌入空间中普遍线性发展。扩展动态模态分解 (EDMD) 是一种逼近 Koopman 模态元组的特征值、特征函数和方法。 EDMD 快照数据集和观察函数字典需要两个先决条件。
给出离散时间动态系统, x t ∈ M x_{t} \in \mathcal{M} xt∈M在时间步 t t t,描述为: x t + 1 = F ( x t ) x_{t+1}=F\left(x_{t}\right) xt+1=F(xt) 其中 F F F表示及时映射系统状态的动力学。 Koopman 理论根据函数的演化提供了对动力系统的另一种描述,即 Koopman 算子 K \mathcal{K} K,它是一个无限维线性算子。将特征函数表示为 φ p : M → F \varphi_{p}: \mathcal{M} \rightarrow \mathcal{F} φp:M→F和Koopman算子 K \mathcal{K} K的特征值 λ p \lambda_{p} λp,有 K φ p ( x t ) = λ p φ p ( x t ) , p = 1 , 2 , … \mathcal{K} \varphi_{p}\left(x_{t}\right)=\lambda_{p} \varphi_{p}\left(x_{t}\right), \quad p=1,2, \ldots Kφp(xt)=λpφp(xt),p=1,2,… 考虑一个向量值函数 g : M → F g: \mathcal{M} \rightarrow \mathcal{F} g:M→F。 K \mathcal{K} K将 g g g映射到一个新函数 K g \mathcal{K} g Kg中,满足: K g ( x t ) = g ( F ( x t ) ) \mathcal{K} g\left(x_{t}\right)=g\left(F\left(x_{t}\right)\right) Kg(xt)=g(F(xt)) 如果 g g g位于特征函数 φ p \varphi_{p} φp的范围内,则 g g g可以根据特征函数展开为 g ( x t ) = ∑ p = 1 ∞ φ p ( x t ) v p g\left(x_{t}\right)=\sum_{p=1}^{\infty} \varphi_{p}\left(x_{t}\right) v_{p} g(xt)=p=1∑∞φp(xt)vp 然后有 g ( F ( x t ) ) = K g ( x t ) = ∑ p = 1 ∞ K φ p ( x t ) v p = ∑ p = 1 ∞ λ p φ p ( x t ) v p \begin{aligned} g\left(F\left(x_{t}\right)\right) &=\mathcal{K} g\left(x_{t}\right) \\ &=\sum_{p=1}^{\infty} \mathcal{K} \varphi_{p}\left(x_{t}\right) v_{p} \\ &=\sum_{p=1}^{\infty} \lambda_{p} \varphi_{p}\left(x_{t}\right) v_{p} \end{aligned} g(F(xt))=Kg(xt)=p=1∑∞Kφp(xt)vp=p=1∑∞λpφp(xt)vp 因此,如果将 λ p \lambda_{p} λp视为系数,则系统的动态是线性的: g ( F ( x t ) ) = K g ( x t ) g\left(F\left(x_{t}\right)\right)=K g\left(x_{t}\right) g(F(xt))=Kg(xt) 其中 Koopman 算子 K \mathcal{K} K将产生一个矩阵 K K K到由 φ p \varphi_{p} φp跨越的子空间。传统上,观测函数 g g g可以通过手工设计的方法从基础物理知识中确定。然后,系统识别问题可以转化为求 Koopman 矩阵 K K K,在给定收集到的数值数据的情况下,可以通过线性回归求解。总之,Koopman 算子理论侧重于非线性系统的线性表示,捕获原始非线性系统的全部信息。
4. Proposed Approach
4.1. Problem Formulation
给定一个步态轮廓序列,可以将其视为时间序列数据 { x t } \left\{x_{t}\right\} { xt},其中 t ∈ [ 1 , 2 , … , M ] t \in[1,2, \ldots, M] t∈[1,2,…,M], M M M是该步态序列中的帧数。 Koopman 理论表明,通过在线性空间中用 Koopman 算子表示非线性动力学系统,可以将线性系统的预测用于系统状态分析。假设通过假设行人具有独特的步行模式,将人类步行视为动态系统。在这种情况下,可以根据受试者 i i i的步态轮廓序列 { x i , t } \left\{x_{i, t}\right\} { xi,t}计算不同的 Koopman 矩阵 K i K_{i} Ki: g ( x i , t + 1 ) = K i g ( x i , t ) g\left(x_{i, t+1}\right)=K_{i} g\left(x_{i, t}\right) g(xi,t+1)=Kig(xi,t) 一旦可以通过最小二乘解从 { x i , t } \left\{x_{i, t}\right\} { xi,t}估计 K i K_{i} Ki,可以在比较估计的步行模式 K ^ i \hat{K}_{i} K^i的相似性后识别行人的身份: K ^ i T = L S ( Φ ( { x i , t } ) ) \hat{K}_{i}^{\mathrm{T}}=L S\left(\Phi\left(\left\{x_{i, t}\right\}\right)\right) K^i