Deep Learning-Based Human Pose Estimation:A Survey
摘要
应用:人机交互、运动分析、增强现实和虚拟现实。
现状:最近基于深度学习的发展方法在人体姿势估计方面取得了较高的表现,但由于缺乏训练数据、深度模糊等问题,仍存在挑战。
目的:通过对基于深度学习的二维和三维位置估计方法的系统分析和比较,根据其输入数据和推理过程,综合总结基于深度学习的二维和三维位置估计方法。
引言
在HPE深度学习技术在任务中的应用取得了显著的进展和效果。然而,2.DHPE它可以很容易地从带带2D在姿势标记的图像和视频中获得,估计单个姿势已经达到了很高的性能,获得了准确的3D姿势标记比2D相应的要困难得多。深度传感器、惯性测量单元等一些工作已经使用(IMU)传感器,如射频设备,通常不划算,需要特殊硬件。
1.1 以前的调查和我们的贡献
2001-2015年公布的这些调查主要集中在常规方法上,没有深入学习。
后期文献要么只涵盖少数深度学习方法,要么不够全面。
本次调查旨在解决以往调查的不足,不仅系统地回顾了最近基于深度学习的2D和3DHPE解决方案也涵盖了HPE其他方面包括(2)D和3D)HPE流行数据集中方法的性能评估、应用及综合讨论。
1.2 组织
HPE分为两类:2DHPE和3D HPE
§3.1:基于深度学习的单一方法有两种:
(1)回归方法,通过基于深度学习的回归,直接建立输入图像到人体关节坐标的映射;
(2)身体部位检测方法包括两个步骤:第一步是生成身体部位定位的关键点(即关节)热图,第二步是将检测到的关键点组装成整个身体的姿势或骨架。
§3.2:基于深度学习的多人方法有两种方法:
(1)自上而下的方法,先检测人,再使用单人HPE预测每个人构建人体姿势的关键点;
(2)自下而上的方法,先检测身体关键点,然后将关键点组合成单独的姿势,不知道人数。
2 人体建模
人体建模是HPE用来表示从输入数据中提取的关键点和特征的一个重要方面。例如,大多数HPE该方法采用N关节刚性运动学模型。人体是一种复杂的关节和肢体实体,包括运动结构和体型信息。在典型的方法中,基于模型的方法描述和推断人体姿势,并绘制2D和3D姿势。通常有三种模型,即运动学模型(用于2)D/3D HPE)、平面模型(用于2D HPE)体积模型(用于3D HPE),如图2所示。
2.1 运动学模型
运动模型,又称基于骨架的模型或运动链模型,如图2所示(A)包括一组关节位置和肢体方向来表示人体结构。这种灵活直观的人体模型是2DHPE[16][17]和3D HPE[18][19]已成功应用。运动模型虽然具有图形表示灵活的优点,但在表示纹理和形状信息方面存在局限性。
2.2 平面模型
平面模型也被用来表示人体的形状和外观,如图2所示(B)所示。在平面模型中,人体部位通常用近似人体轮廓的矩形表示。
2.3 体积模型
3.基于深度学习D HPE常用的方法3D恢复人体模型3D人体网格的方法。
SMPL:蒙皮多人线性模型是一个基于蒙皮顶点的模型,它代表了广泛的人体形状。SMPL软组织动力学的自然姿势相关变形可以模拟。在SMPL1786高分辨率3D扫描对象使用模板网格优化混合重量[26]、与姿势相关的混合变形、平均模板形状以及从顶部到关节位置的回归。SMPL易于部署,与现有渲染引擎兼容,所以在3DHPE该方法被广泛使用。
动态人体运动模型试图表达不同身体形状的真实软组织运动。与运动相关的软组织变形与低维线性子空间相似。为了预测软组织运动的低维线性系数,使用全身的速度和加速度、身体各个部位的角度和加速度以及软组织的形状系数。Dyna利用身体质量指数(BMI)不同体型的人会有不同的变形。
缝合木偶模型是基于零件的图形模型,集成了逼真的身体模型。不同的三维形状和与姿势相关的形状变化可以转化为相应的图形节点,身体的每个部位都由其自身的低维状态空间表示。身体的各个部分通过图中节点之间的成对电位连接在一起,从而缝合各个部分。通常,通过势函数的部分连接是通过使用置信传播的(BP)执行新闻传递算法等。为了解决各部分状态空间不易离散的问题,采用了基于粒子的方法D-PMP模型的最大乘积BP算法。
弗兰肯斯坦和亚当:弗兰肯斯坦模型不仅产生人体运动参数,还产生面部表情和手势参数。该模型由混合各组件网格的模型生成:身体SMPL、面部的Face Warehouse[31]手部艺术家。为了表达身份和运动变化,所有变换的骨骼都合并到单个骨骼层次,每个组件的本地参数化保持不变。亚当模型是由弗兰肯斯坦模型优化的。亚当更适合在现实世界中表达人类,因为它能表达舒曼的头发和服装几何图形。
Ghum&GHUML(ITE):在[32]中,提出了一种完全可训练的端到端深度学习管道来建模静态和关节3D人体形状和姿势,GHUM是中分辨率版,GHUML是低分辨率版本。GHUM和GHUML通过扫描自动编码器框架中的高分辨率(其数据集中在6万多种不同的人类配置上)进行训练。它们可以推断出一系列组件,如非线性形状空间、姿势空间变形校正器、骨架关节中心估计器和混合蒙皮功能。
3 估计二维人体姿势
二维HPE从图像或视频中估计人体关键点的二维位置或空间位置。传统的二维HPE该方法采用不同的手工提取技术[33][34],将人体描述为一个棒状图形,以获得整体结构。近年来,基于深度学习的方法HPE该领域取得了重大突破,显著提高HPE的性能。本文从单人和多人两种情况出发,基于深度学习的二维HPE综述了方法。
3.1 估计二维单人姿势
输入单人图像时,使用二维单人姿势估计来定位人体关节的位置。如果有多个人,首先切割输入图像,使每个切割块(或子图像)中只有一个人。该过程可通过上半身探测器或全身探测器自动实现。
一般来说,采用深度学习技术的单管有两种:回归法和身体部位检测法。回归方法应用于端到端框架,以学习从输入到身体关节或人体模型参数的映射。身体部位检测方法的目标是预测身体部位和关节的一般位置[][38],通常由热图表示法监督。基于热图的框架现在被广泛应用于2D HPE任务。
(A)从原始图像到运动学身体模型的映射,直接学习回归方法,产生关节坐标。
(B)利用热图的监督来预测身体关节的位置。
3.1.1 回归方法
从图像中预测关节坐标有许多基于回归框架的工作。AlexNet[1]作为骨干,中Toshev和Szegedy从图像中学习关键点的级联深度神经网络回归算法DeepPose。
由于DeepPose性能令人印象深刻,HPE的研究范式开始从经典方法转向深度学习,特别是卷积神经网络(CNNs)。
对于基于回归的方法,编码丰富的姿势信息的良好特征非常重要。学习更好元素的流行策略之一是多任务学习。该模型可以更好地泛化原始任务(位置估计)。
李等人沿着这个方向提出了自己的观点。[46]提出了一个由两个任务组成的异构多任务框架:通过建立从整个图像中预测关节坐标的回归模型;使用滑动窗口从图像中检测身体部位。Fan等人的研究成果。[47]提出了一种双源深度卷积神经网络(DS-CNN),用于判断补片中是否含有人体关节,确定补片中关节的准确位置,并提出双源深度卷积神经网络(DS-CNN)。每个任务对应一个损失函数,两个任务的组合会带来更好的结果。Luvizon等人。[48]学习了联合处理视频序列中的2个多任务网络D/3D姿势估计和动作识别。
3.1.2 身体部位检测方法
HPE人体部位检测方法的目的是训练人体部位检测器来预测人体关节的位置。最近的检测方法撞击提出了一个热图预测问题。具体地说,目标是估计总共K个关键点的Kheatmap{H1,H2,.,HK}。每个关键点热图中的像素值Hi(x,y)表示关键点位于位置(x,y)的概率(参见图。3(B))。目标(或地面真实)热图由以地面真实联合位置[39][53]为中心的二维高斯生成。因此,通过最小化预测热图和目标热图之间的差异(例如,均方误差(MSE))来训练姿态估计网络。与联合坐标相比,热图保留了空间分布信息,为卷积网络的训练提供了更好的监督信息。因此,最近人们对利用热图来表示联合位置和开发用于HPE的有效的CNN架构越来越感兴趣。
滤波器的侧枝来扩展残差单元,以捕获不同尺度的特征。
随着[66]的出现,人们在HPE中对它们进行探索,以生成生物逻辑上合理的姿势配置,并区分高置信度和低置信度的预测,这可以推断出被遮挡身体部位的潜在姿势。
视频序列中的人体姿势是(3D)时空信号。因此,对视频中的时空信息进行建模对于视频的HPE来说是非常重要的。
Jain等人[75]设计了一个包含两个分支的CNN框架,将颜色和运动特征合并到帧对中,以在HPE中建立一个富有表现力的时空模型。
菲斯特·埃塔尔。[76]提出了一种卷积网络,该网络能够利用来自多个帧的时间上下文信息,利用光流来对齐来自相邻帧的预测热图。
与以往基于视频的方法计算量大不同,Luoo et al.[60]提出了一种长短期记忆(LSTM)的递归HPE结构[77],以捕捉不同帧的时间几何一致性和依赖性,提高了视频HPE网络的训练速度。
张等人。[78]介绍了一个用于从帧中获取空间和时间信息的关键帧提议网络和一个用于高效的基于视频的位姿估计的人体姿势插值模块。
3.2 二维多人姿态估计
与单人HPE相比,多人HPE的难度和挑战性更大,因为它需要计算出人数和他们的位置,以及如何针对不同的人对关键点进行分组。为了解决这些问题,多人HPE方法可以分为自上而下方法和自下而上方法。自上而下的方法使用现成的人物检测器从输入图像中获得一组框(每个框对应一个人),然后将单人姿态估计器应用于每个人物框以生成多人姿势。与自上而下的方法不同的是,自下而上的方法首先在一幅图像中定位所有的身体关节,然后将它们分组到相应的对象。在自上而下的流水线中,输入图像的人数将直接影响计算时间。自下而上方法的计算速度通常比自上而下方法快,因为它们不需要单独检测每个人的姿势。图4示出了二维多人HPE方法的一般框架。
图4:多人2D HPE框架图。(A)自上而下的方法有两个子任务:(1)人体检测和(2)单人区域的姿势估计;
(B)自下而上的方法也有两个子任务:(1)检测身体部位的所有关键点候选;(2)将不同人体中的身体部位关联起来,并将它们组装成单独的姿势表示。
3.2.1 自上而下的管道
自上而下的流水线中,有两个重要部分:用于获得人物包围盒的人体检测器和用于预测这些包围盒内关键点位置的单人姿势估计器
估计遮挡和截断场景下的姿势经常发生在多人环境中,因为肢体重叠是不可避免的。人体检测器可能会由于遮挡或截断而在自上而下管道的第一步中失败。因此,对遮挡或截断的鲁棒性是多人HPE方法的一个重要方面。
***为了提高HPE在复杂场景中的性能,方等[89]设计了一种新的区域多人姿态估计(RMPE)方法。***具体地说,RMPE框架包括三个部分:对称空间变换网络(用于检测不精确包围盒内的单人区域)、参数非最大值抑制(用于解决冗余检测问题)和姿态制导建议生成器(用于扩充训练数据)。
整体方法在遮挡和杂乱的场景中运行良好。为了缓解HPE中的遮挡问题。
3.2.2 自下而上管道
如图4(B)所示,自下而上的管线(例如,[94][95][96][17][97][98][99][100][101][102][103])具有两个主要步骤,包括人体关节检测(即,提取局部特征并预测人体关节候选)和针对单个身体的关节候选组合(即,将关节候选分组以建立具有部分关联策略的最终姿势表示)。
3.3 二维HPE摘要
综上所述,随着深度学习技术的蓬勃发展,2D HPE的性能有了显著的提高。近年来,更深层次和更强大的网络已经提升了二维单人HPE(如DeepPose[36]和Stack HourglassNetwork[38])以及二维多人HPE(如AlphaPose[89]和OpenPose[17])的性能。
虽然这些工作在不同的2D HPE场景中取得了足够好的性能,但仍然存在问题。回归和人体部位检测方法在二维单人HPE中各有优势和局限性。回归方法可以通过端到端的框架学习从输入图像到关键点坐标的非线性映射,这提供了快速的学习范例和亚像素级的预测精度。然而,由于高度非线性问题,它们通常给出次优解[44]。人体部位检测方法,特别是基于热图的框架,由于(1)热图中每个像素的概率预测可以提高关键点定位的精度;(2)热图保留了空间位置信息,提供了更丰富的监控信息,因此在二维HPE中得到了更广泛的应用。然而,预测关键点的精度取决于热图的分辨率。当使用高分辨率热图时,计算成本和内存占用显著增加。
对于二维多人HPE的自上而下和自下而上两种管路,很难确定哪种方法更好,因为这两种方法在最近的工作中都得到了广泛的应用,各有优缺点。一方面,自上而下的流水线方法首先使用检测方法检测图像中的每个个体,然后使用基于单人的方法预测关键点的位置,从而获得更好的效果。在这种情况下,由于很大程度上去除了背景,每个检测到的人区域内的关键点热图估计都变得容易。另一方面,自下而上方法通常比自上而下方法更快,因为它们直接检测所有关键点并将其分组使用诸如亲和力链接[17]、关联嵌入[97]和按像素的关键点回归[107]的关键点关联策略转换成各个姿势。
二维HPE中存在一些挑战,需要在未来的研究中进一步解决。首先是在显著遮挡下(例如,在人群场景中)对个人的可靠检测。自上而下的二维HPE方法中的人检测器可能无法识别高度重叠的人体边界。同样,对于遮挡场景中的自下而上方法,关键点关联的困难更为明显。
第二个挑战是计算效率。虽然像OpenPose[17]这样的一些方法可以在中等计算能力的特殊硬件上实现近实时处理(例如,在配备NVIDIA GTX 1080Ti GPU的机器上实现22FPS),但在资源受限的设备上实现网络仍然是困难的。现实世界中的应用(如在线教练、游戏、AR和VR)需要在商业设备上使用更高效的HPE方法,以便为用户带来更好的交互体验。
另一个挑战在于罕见姿势的有限数据,虽然目前二维HPE的数据集已经足够大(例如COCO数据集[108])来估计正常姿势(例如站立、行走、奔跑),但是这些数据集对于特殊姿势(例如跌倒)的训练数据有限,数据不平衡可能会导致模型偏差,从而导致在这些姿势上表现不佳。开发有效的数据生成或增强技术来生成额外的姿态数据以训练更健壮的模型将是有用的。
4 三维人体姿态估计
3DHPE以预测人体关节在三维空间中的位置为目标,能够提供与人体相关的丰富的三维结构信息,近年来引起了人们的极大兴趣。它可以应用于各种应用(例如,3D电影和动画产业、虚拟现实和在线3D动作预测)。虽然近年来二维HPE已经取得了很大的进步,但三维HPE仍然是一项具有挑战性的任务。现有的撞击3DHPE研究大多是从单目图像或视频出发的,这是一个不适定的逆问题,因为从3D投影到2D会丢失一维。当有多个视点可用或部署其他传感器(如IMU和LiDAR)时,利用信息融合技术,3DHPE可能是一个适定的问题。另一个限制是深度学习模型需要大量数据,并且对数据收集环境非常敏感。与2D人类数据集不同,在2D人类数据集中可以很容易地获得准确的2Dpose注释,而收集准确的3Dpose注释是耗时的,并且手动标记是不现实的。此外,数据集通常是从室内环境中选择的日常操作中收集的。最近的工作[109][110][111]已经通过交叉数据集推理验证了有偏数据集约束的模型泛化能力差的问题[112],在这一部分中,我们首先关注来自单目RGB图像和视频的3D HPE,然后讨论基于其他类型传感器的3D HPE。在这一部分中,我们首先讨论基于单目RGB图像和视频的3D HPE,然后讨论基于其他类型传感器的3D HPE。
4.1 来自单目RGB图像和视频的3D HPE
单目摄像机是二维和三维场景中使用最广泛的HPE传感器。近几年来的研究进展基于深度学习的来自单目图像和视频的2D HPE使研究人员能够将他们的工作扩展到3D HPE。具体地说,基于深度学习的三维HPE方法分为两大类:单视图三维HPE和多视点3D HPE。
4.1.1 单视图3D HPE
从单目图像和视频的单一视图重建三维人体姿势是一项非常重要的任务,它受到自遮挡和其他对象遮挡、深度模糊和训练数据不足的困扰。这是一个严重的不适定问题,因为不同的3D人体姿势可以投影到相似的2D姿势投影。此外,对于建立在2D关节上的方法,2D身体关节的微小定位误差可能会导致3D空间中的大姿势失真。与单人情况相比,多人情况更为复杂。因此,它们将在下面单独讨论。
A.单人三维HPE
图5:单人3D HPE框架。
(A)直接估计法直接从二维图像中估计三维人体位置。(B)2D到3D提升方法利用预测的2D人体姿势(中间表示)来进行3D姿势估计。©基于模型的方法结合参数化的人体模型来恢复高质量的三维人体网格。由3Dpose和Shape网络推断出的3D姿态和形状参数被馈送到模型回归器以重建3D人体网格。部分数字来自[113]。
根据是否使用人体模型(如第2节所列)来估计3D人体姿势,单人3D HPE方法可分为无模型方法和基于模型的方法。
无模型方法。无模型方法不需要使用人体模型来重建三维人体表示。这些方法可进一步分为两类:(1)直接估计法和 (2)2D到3D提升法。
直接估计:如图5(A)所示,直接估计方法从2D图像中推断3D人体姿势,而不中间估计2D姿势表示,例如,[114] [115] [116] [43] [117] [118] [119]。早期的深度学习方法之一是由Li和Chan[114]提出的。他们采用浅层网络训练滑动窗口和姿态坐标回归同步训练人体部位检测。Liet等人提出了一种随访方法。[115]其中图像-3D姿势对被用作网络输入。分数网络可以给正确的图像-3D姿势对分配高分,给其他姿势对分配低分,但是这些方法效率很低,因为它们需要多个前向网络推理。Sun等人[43]提出了一种结构感知回归方法。他们没有使用基于关节的表示法,而是采用了更稳定的基于骨骼的表示法。成分损失是通过利用3D骨骼结构和基于骨骼的表示来定义的,这种表示编码了骨骼之间的远程相互作用。 Tekin等人的研究成果。[116]通过学习3Dpose到高维潜在空间的映射,对关节之间的结构依赖性进行了编码。学习的高维姿势表示可以强制3D姿势的结构约束。Pavlakos等人。[117]引入体积表示法,将高度非线性的三维坐标回归问题转化为吸积空间中易于处理的形式。体积中每个关节的体素可能性由卷积网络预测。利用人体关节的正常深度关系,降低了对精确三维地面真实姿态的要求。
2D到3D提升:由于最近2DHPE的成功,从中间估计的2D人体姿势推断3D人类姿势的2D到3D提升方法已经成为一种流行的3D HPE解决方案,如图5(B)所示。得益于最先进的2D姿势检测器的优异性能,2D到3D提升方法通常比直接估计方法性能更好。第一阶段采用现成的二维HPE模型估计二维位姿,第二阶段采用二维到三维提升的方法获得三维位姿。Chen和Ramanan[120]从库中对预测的2D姿势和3D姿势进行了最近邻匹配。但是,当3D姿势不是有条件地独立于给定2D姿势的图像时,3D HPE可能会失败。Martinez等人。[121]提出了一种简单有效的全连通残差网络,用于基于二维节点位置回归三维节点位置。尽管当时获得了最先进的结果,但由于过度依赖2Dpose探测器的重建模糊性,该方法可能会失败[118]。Tekin等人的研究成果[122]和周等人的观点[123]使用2D热图代替2D姿势作为估计3D姿势的中间演示。Moreno-Noguer[124]通过距离矩阵回归推导出三维人体姿势,其中2D和3D人体关节的距离被编码成两个欧几里德距离矩阵(EDM)。EDM对于面内图像的旋转和平移以及应用归一化操作时的缩放不变性都是不变的。Wang等人。[125]开发了一种两两排序的卷积神经网络(PRCNN)来预测两两人体关节的深度排序。然后,利用由粗到精的位姿估计器从2D关节和深度排序矩阵回归出3D位姿。Jahangiri和Yuille[126],Sharma等人。[127],Li和Lee[128]首先生成多个不同的3D姿势假设,然后应用排序网络选择最佳3D姿势。
考虑到人体姿势可以表示为关节为节点、骨骼为边的图形,已经应用了图形卷积网络(GCNS)通过展示有希望的性能[129] [130] [131] [132] [133]来解决2D到3D姿势提升问题。Choi等人。[131]提出了一种基于GCN的Pose2Mesh方法,从PoseNet中提炼出中间三维姿态。使用GCN,网格网用从网格拓扑构建的图形来回归网格顶点的3D坐标。CI等人[129]提出了一个通用的框架,称为局部连接网络(LCN),它利用全连接网络和GCN来编码局部联合邻域之间的关系。LCN克服了GCN权值分担方案损害姿态估计模型表示能力的局限性,结构矩阵缺乏灵活性,不能支持定制的节点依赖。赵等人。[130]解决了GCN中所有节点卷积滤波器分权矩阵的局限性。提出了一个语义GCN来研究这些语义信息和语义关系。语义图形卷积(SemGConv)运算用于学习边的通道权重。由于SemGConv层和非局部层是交织的,节点之间的局部和全局关系都被捕获。
3D HPE数据集通常从具有选定日常运动的受控环境中收集。野外数据的三维姿态标注很难获得。因此,对于具有不寻常姿势和遮挡的野外数据,3DHPE仍然是一个挑战。为此,一组2D到3D的提升方法注重从没有3D姿势标注的原始图像中估计3D人体姿势,如[109] [134] [135] [110] [111]。周等人。[109]提出了一种将野外图像的2个标注作为弱标签的弱监督转移学习方法。三维位姿估计模块与二维位姿估计模块的中间层相连。对于野外图像,2Dpose估计模块执行有监督的2D热图回归,弱监督3D姿势估计模块应用3D骨长约束导致的损失。在弱监督3D姿势估计模块中,2Dpose估计模块执行有监督的2D热图回归,并且在弱监督3D姿势估计模块中应用3D骨长约束引起的损失。Habibie et al.[134]定制投影损失以优化没有3D注释的3D人体姿势。设计了一个3D-2D投影模块,用于根据预测的早期网络层的3D姿势估计2D人体关节位置。投影损失用于更新3D人体姿势,而不需要3D注释。在[136]的启发下,Chen et al.[135]针对提升-再投影-提升过程,提出了一种基于闭包和不变提升性质且具有几何自洽损失的无监督提升网络。闭合是指对于提升的3D骨架,经过随机旋转和重新投影后,生成的2D骨架将位于有效2D姿态的分布范围内。不变性是指从3D骨架改变2D投影的视点时,重新抬起的3D骨架应该是相同的。
与从单块图像估计3D人体姿势不同,视频可以提供时间信息来提高3D HPE的准确性和鲁棒性,例如[137] [138] [139] [140] [141] [142] [143] [144]。Hossain和Little[145]提出了一种递归神经网络,它使用带有快捷连接的长短期记忆(LSTM)单元来利用人体序列中的时间信息。他们的方法利用序列到序列网络中的过去事件来预测时间上一致的3D位置。注意到空间约束和时间相关性之间的互补性通常被忽略在先前的工作中。与从单块图像估计3D人体姿势不同,视频可以提供时间信息来提高3D HPE的准确性和鲁棒性,例如[137] [138] [139] [140] [141] [142] [143] [144]。Hossain和Little[145]提出了一种递归神经网络,它使用带有快捷连接的长短期记忆(LSTM)单元来利用人体序列中的时间信息。他们的方法利用序列到序列网络中的过去事件来预测时间上一致的3D位置。注意到空间约束和时间相关性之间的互补性通常被忽略在[140]的基础上,Chen等人在[147]的基础上增加了骨骼方向模块和骨骼长度模块,以确保人体解剖在视频帧上的时间一致性,而Liu等人则增加了骨骼方向模块和骨骼长度模块。[148]利用注意机制识别重要帧,并对大的时间接受场中的长期依赖关系进行建模。Zenget al.[133]采用拆分重组策略来解决罕见且看不见的姿态问题。首先通过分离的时域卷积网络分支将人体分割成局部区域进行处理,然后将从每个分支获得的低维全局上下文进行合并以保持全局一致性。
基于模型的方法。如图5©所示,基于模型的方法不包括如第2节所述的参数化身体模型(如运动学模型和体积模型)来估计人体姿势和形状。
运动学模型是由具有运动学约束的骨骼和关节连接而成的关节体表示,近年来在三维HPE中受到越来越多的关注。许多方法利用基于运动学模型的先验知识(例如骨骼关节连接性信息、关节旋转特性和固定的骨骼长度比)来估计似是而非的姿势,例如,[149] [19] [150] [151] [152] [153] [154] [155]。周等人。[149]将运动学模型作为运动层嵌入到网络中,以实施方向和旋转约束。Nie等人[150]和Lee等人。[156]采用了LSTM骨架网络,以利用联合关系和连通性。根据运动学结构,观察到人体各部分有明显的自由度(DOF),王等人说。[151]And Nie等人。[154]提出了双向网络对人体骨骼的运动学和几何依赖性进行建模。Kundu等人。[152]设计了一种基于能量损失推断局部运动学参数的运动学结构保留方法,并基于双亲相对局部肢体运动学模型对二维零件段进行了探索。Xu等人。[153]论证了噪声2D关节是实现精确3D位姿估计的关键障碍之一,因此采用2D位姿校正模块对不可靠的2D关节进行基于运动学结构的精化。赞菲特·艾尔。[158]引入了一种具有可微语义部分对齐损失函数的运动学潜在归一化流动表示(应用于原始分布的可逆变换序列)。,如[159] [160] [161] [162] [163] [164] [165] [166] [167] [168]等。Tan等人。[161]、董等人的研究成果。[162]Pavlakos等人。[169]和Omran等人。[170]回归参数以重建3D人体网格。Kolotouros等人没有预测SMPL参数。[171]利用Graph-CNN结构回归了SMPL网格点的位置。[172]将SMPL模型与层次网格变形框架相结合,增强了树形三维变形的灵活性。Kundu等人。[173]在SMPL模型中加入颜色恢复模块,通过反射对称性获取顶点颜色。Arnab等人。[113]指出使用SMPL模型的方法在野外数据上通常是失败的。他们使用束调整方法来处理遮挡、异常姿势和对象模糊。Doerschand Zisserman[165]提出了一种转移学习方法,通过在合成视频数据集超现实[174]上训练来回归SMPL参数。Kocabas等人。[175]包括大规模运动捕捉数据集[176],用于对其基于SMPL的方法VIBE(Video Inference For Body Pay And Shape Estimation)进行对抗性训练,VIBE利用海量通过姿势回归模块区分真实人体运动和预测姿势。由于低分辨率的视觉内容在现实场景中比高分辨率的视觉内容更常见,当分辨率降低时,现有的训练有素的模型可能会失败。[177]将对比学习方案引入到基于自监督分辨率感知SMPL的网络中,自监督对比学习方案使用自监督损失和对比特征损失来增强特征和尺度的一致性
有几种扩展的基于SMPL的模型来弥补SMPL模型的局限性,如计算复杂度高,缺少手和面部标志。Bogo等人。[159]提出了一种基于SMPLify的三维人体网格估计方法,该方法将SMPL模型拟合到检测到的2D节点上,使重投影误差最小。Lassneret等人提出了SMPLify的扩展版本。[160]。
采用随机森林回归方法回归SMPL参数,减少了运行时间,但仍不能达到实时吞吐量。金泽等人。[178]在此基础上,提出了一种对抗性学习方法来实时直接推断SMPL参数。Pavlakoset al.[179]在SMPLify方法的基础上,提出了SMPLify-X模型,该模型是借鉴AMASSDataSet[176]的改进版本。Hassan et al.[163]进一步扩展了SMPLify-XTO Prox-一种通过添加3D环境约束来实施与对象排除的最近关系的方法。Kolotouros等人。[164]在训练循环中使用SMPLify的同时,将基于回归和基于优化的SMPL参数估计方法集成到一种名为SPIN(SMPL OPTIMIZATION In The Loop)的新方法中。奥斯曼等人[180]将SMPL升级为STAR,训练时增加了10,000次扫描,以实现更好的模型泛化。模型参数个数减少到SMPL的20%。
除了使用基于SMPL的模型之外,还使用其他体积测量模型来恢复3D人体网格,例如,[181][182][183][184]。Chen等人。[182]引入圆柱体人模型,为3D数据生成遮挡标签,并进行数据增强。引入姿态正则项来惩罚错误估计的遮挡标签。香等人。[183]利用亚当模型[30]来重建三维运动。提出了一种三维人体表示方法,称为三维零件方向场(3D Part Orientation Field,POFS),用于编码人体各部位在二维空间中的三维方位。Wang等人。[185]提出了一种新的人体网格的骨级蒙皮模型,该模型通过设置骨长和关节角度,将骨建模和特定于身份的变化解耦。Fisch和Clark[186]提出了一个定向关键点模型,该模型可以计算6DHPE的全三轴旋转,包括偏航、俯仰和横摇。
B. 多人3D HPE
对于来自单目RGB图像或视频的3D多人HPE,此处注意到与2D多人HPE类似的类别:自上而下方法和自下而上方法,分别如图6(A)和图6(B)所示。3.2节中二维自上而下和自下而上方法的比较也适用于三维情况。
自上而下的方法
三维多人HPE自上而下的方法是先进行人体检测,再进行个体检测。然后对每个检测到的人,通过三维姿态网络估计绝对根(人体的中心关节)坐标和三维根相对姿态。基于每个人的绝对根坐标及其根相对姿势,所有姿势都与世界坐标对齐。**[188][189][190]相机距离感知的方法,即将裁剪后的人体图像送入他们开发的RootNet中,以估计人体根部的相机中心坐标。然后是根相对3D每个修剪过的人的姿势都是由建议的PoseNet估计的。Benzine等人。[192]**提出了一种基于姿态估计和检测锚点的单发PandaNet(Pay Estimation and Detection Anchor-based Network)方法。为了避免遮挡问题,引入了一种基于锚点的低分辨率表示方法。开发了一个姿态感知锚点选择模块,通过去除模糊锚点来解决重叠问题,并使用不同尺度下损失的自动加权来处理不同体型的人的不平衡问题。Li等人。[193]解决了自上而下方法中缺乏全球信息的问题。它们采用层次化的多人序关系方法,利用本体层次、语义和全局一致性对交互信息进行层次化编码。
自下而上的方法
与自上而下的方法不同,自下而上的方法首先生成所有的身体关节位置和深度图,然后根据根部深度和部分相对深度将身体部位与每个人相关联。自下而上方法的一个关键挑战是如何对属于每个人的人体关节进行分组。赞菲尔·埃塔尔。[194]将人员分组问题表述为二进制整数规划(BIP)问题。肢体评分模块用于估计被检测关节的候选运动连接,骨架分组模块通过求解BIP问题将肢体组装成骨架。Nie等人[101]提出了一种单级多人姿态机器(SPM),为每个人定义唯一的身份根关节,利用密集的位移图将身体关节与每个根关节对齐。然而,该方法的局限性在于,只有配对的2D图像和3D姿势注释才能用于有监督学习。在没有配对的2D图像和3D姿势注释的情况下,Kundu等人。[195]提出了一种冰冻网络,在实际部署范例下开发两种不同模态之间共享的潜在空间,从而将学习归结为一个跨模型对齐问题。Fabbri等人。**[196]**提出了一种基于距离的多人设置关节连接启发式算法,从检测到的头部(即置信度最高的关节)开始,根据三维欧氏距离选择距离最近的关节进行连接。
自下而上方法的另一个挑战是遮挡。为了应对这个挑战,Metha等人。[197]提出了一种遮挡-鲁棒姿势图(ORPM)方法,将冗余率加入到位置图公式中,从而促进了热图中的人的关联,特别是对于被遮挡的场景。甄氏等人。[187]通过对人与人之间的遮挡和骨骼长度约束的推理,利用深度感知部分关联算法为个体分配关节。Mehta等人。[198]快速推断可见身体关节的中间3D姿势,而不考虑准确性。然后,利用学习到的姿态先验和全局上下文,通过推断被遮挡的关节来重建完整的三维姿态。通过应用时间相关性和拟合运动学骨骼模型,最终的3D姿势被细化。
自上而下和自下而上方法的比较自上而下的方法通常依靠最先进的人物检测方法和单人姿势估计方法来获得令人满意的结果。但是,随着人数的增加,特别是在拥挤的场景中,计算复杂度和推理时间可能会变得过大。而且,由于自上而下方法首先检测每个人的包围盒,场景中的全局信息可能会被忽略。裁剪区域的估计深度可能与实际深度排序不一致,并且预测的人体可能被放置在重叠位置。相反,自下而上方法具有线性计算和时间复杂性。然而,如果目标是恢复三维人体网格,那么自下而上的方法重建人体网格并不是一帆风顺的。对于自上而下的方法,在检测到每个人之后,通过结合基于模型的3D单人HPE估计器,可以很容易地恢复每个人的人体网格。而对于自下而上的方法,需要额外的模型回归模块来根据最终的三维姿态重建人体网格。
4.1.2 多视图3D HPE
单视环境下三维HPE的部分遮挡是一个具有挑战性的问题。克服这个问题的自然解决方案是从多个视图估计3D人体姿势,因为一个视图中的遮挡部分在其他视图中可能会变得可见。为了从多个视图重建三维姿态,需要解决不同摄像机之间对应位置的关联问题。
一组方法[199] [200] [201] [203]利用人体模型通过优化模型参数使模型投影与二维姿态相匹配来解决关联问题。广泛使用的3D图片结构模型**[204][205][206][202]** [中英文摘要]、Chenet al.
在多视点HPE中,除了精度外,还需要考虑轻量级的体系结构、快速的推断时间和对新摄像机设置的高效适应。与**[202]
4.2 其他来源的3D HPE
虽然单目RGB相机是3D HPE最常用的设备,但其他传感器(如深度传感器、IMU和射频设备)也可用于此目的。
深度和点云传感器
深度传感器以其低成本和高利用率的特点在三维计算机视觉任务中受到越来越多的关注,作为三维HPE的关键挑战之一,深度传感器的使用可以缓解深度模糊问题。Yu等人在[221]中提出了一种称为DoubleFusion的单视图实时方法,可以在不使用图像的情况下从单深度传感器估计3D人体姿势。内层通过体积表示重建三维形状,外层通过融合更多的几何细节来更新体形和姿态。熊某等人。**[222]**提出了一种基于深度图像的锚杆-关节回归网络(A2J)。通过将估计的多个锚点与全局-局部空间上下文信息相结合来估计三维关节位置。KadkhoDamohammadi等人。[223]采用多视角RGB-D摄像机采集真实手术室环境中含有深度信息的彩色图像,采用随机森林先验算法融合先验环境信息。最后通过多视角融合和RGB-D优化估计最终的三维姿态。[224]从RGB-D视频中重建具有高分辨率反照率纹理的细节网格。
与深度图像相比,点云可以提供更多的信息。最先进的点云特征提取技术PointNet**[225]
带有单目图像的IMUS
可穿戴式惯性测量单元(IMU)通过记录运动,在没有物体遮挡和衣物遮挡的情况下,跟踪人体特定部位的方位和加速度。然而,在使用IMU时,可能会出现漂移问题。Marcard等人。[229]提出了一种稀疏惯性位置器(SIP),用于从附着在人体上的6个IMU重建人体姿势。收集到的信息被拟合到带有相干约束的SMPLbody模型中,以获得准确的结果。Marcard等人。**[230]
射频设备
基于射频(RF)的传感技术也已用于定位人。无需携带无线发射器就可以在WiFi范围内穿越墙壁和弹离人体是部署基于射频的传感系统的主要优势,同时由于非视觉数据可以保护隐私,但是与可视摄像机图像相比,射频信号的空间分辨率相对较低,并且射频系统需要生成粗略的3D位姿估计。赵等人在**[234]
其他传感器/来源
除使用上述传感器外,Isogawa等人。
4.3 3D HPE摘要
三维HPE近年来取得了很大的进展,由于大量的3D HPE方法采用了2D到3D的提升策略,使得3D HPE的性能有了很大的提高,OpenPose[17]、CPN[90]、AlphaPose**[89]
其中一个挑战是模型泛化。高质量的三维地面真实姿态标注依赖于运动捕捉系统,而运动捕捉系统不容易部署在随机环境中。因此,现有的数据集主要是捕捉无约束场景。最先进的方法可以在这些数据集上取得令人振奋的结果,但当应用于野外数据时,它们的性能会下降。游戏引擎可以生成具有不同姿势和复杂场景的合成数据集,例如超现实数据集**[174]**和GTA-IM数据集[243]。然而,由于合成数据分布与真实数据分布之间的差距,从合成数据中学习可能达不到期望的性能。
与二维HPE一样,对遮挡的鲁棒性和计算效率也是3D HPE面临的两个关键挑战。目前的3D HPE方法在拥挤的场景中,由于严重的相互遮挡和可能的低分辨率内容,性能会有相当大的下降。三维HPE比二维HPE对计算的要求更高。例如,2D到3D提升方法依赖于2D姿势作为推断3D姿势的中间表示。因此,在保持高精度位姿估计的同时,开发计算效率高的二维HPE管线显得尤为重要。
5 数据集和评估指标
在进行HPE时,非常需要数据集。为了在不同的算法之间提供公平的比较,它们也是必要的。由于应用场景的复杂性和多样性,收集一个全面的、通用的数据集是一个挑战。为了评估和比较基于不同度量的结果,我们收集了一些数据集。在这一部分中,我们介绍了用于HPE的传统数据集,以及用于基于2D和3D深度学习的HPE方法的更新的数据集,在这一部分中,我们将介绍HPE中使用的传统数据集,以及最近用于基于2D和3D深度学习的HPE方法的数据集。除了这些具有不同功能和任务要求的数据集之外,本节还涵盖了二维和三维HPE的几个常用评估指标。并总结了现有方法在流行数据集上取得的结果。
5.1 二维HPE的数据集
在深度学习应用于人体姿态估计之前,已经有了大量的二维人体姿态数据集。这些数据集有两种类型:(1)上半身姿势数据集,包括Buffy Stickmen[244]、ETHZ Pascal Stickmen[245]、We AreFamily[246]、Video Pose 2[247]和Sync。活动[248];以及(2)全身姿势数据集,包括Pascal PersonLayout[249]、Sports[250]和UIUC People[251]。然而,目前使用这些二维HPE数据集的工作很少,因为它们有很多局限性,如缺乏多样的目标运动和图像数量少。由于基于深度学习的方法是由大量的训练数据推动的,因此本节只回顾大规模的2D HPE数据集。它们在表2中归纳为两个不同的类别(基于图像和基于视频)。
5.1.1 基于图像的数据集
Frames Labeled In Cinema (FLIC) Dataset
[252]是最早的基于图像的二维HPE数据集之一,它包含了从好莱坞电影中自动收集的5003幅图像,其中约4000幅图像用作训练集,其余的用作测试集。FLIC数据集使用名为Poselets[260]的身体部位检测器,从30部流行好莱坞电影的每10帧中获得约20K个候选人物。这些图像中的对象有不同的姿势。从电影中获取的全套帧被称为FLIC-FULL数据集。它是原始FLIC数据集的超集,包含20,928个遮挡的非正面样本。在[53]中引入了一种新的基于FLIC的数据集,命名为FLIC-PLUS,它通过删除与FLIC数据集中的测试集包含相同场景的所有图像来实现。数据集链接:https://bensapp.github.io/flic-dataset.html
Leeds Sports Pose (LSP) Dataset
[16]有2,000张来自Flickr的注释图片和8个运动标签,涵盖不同的运动项目,包括田径、羽毛球、棒球、体操、跑酷、足球、网球和排球。在LSP数据集中,每个人的全身共标记了14个关节,此外,利兹运动姿势扩展数据集(LSP-Extended)[254]扩展了LSP数据集,仅用于训练。LSP扩展数据集具有超过10,000个来自Flickr的映像。在最近的研究中,LSP和LSP扩展的数据集已经用于单人HPE。数据集链接:https://sam.johnson.io/research/lsp.html
Max Planck Institute for Informatics (MPII) HumanPose Dataset
[253]是用于评估人工HPE的流行数据集。该数据集包含约25,000张图像,其中包含40,000多个带有注释的人体关节,并在[261]的基础上,采用两级分层的方法系统地收集图像,以捕捉日常的人体活动。整个数据集涵盖了410个人类活动,并且所有的图像都进行了标记。每张图片都是从YouTube视频中提取出来的,并提供了前后未加注释的帧。此外,丰富的注释包括工作人员在Amazon Mechanical Turk上重新标记了身体部位闭塞、3D躯干和头部方向。MPII中的图像适用于2D单人或多人HPE。数据集链接:http://human-pose.mpi-inf.mpg.de/#