来源丨AI科技评论

极市平台编辑

近日，计算机视觉顶会CVPR 美图影像研究院于2022年公布了会议录取结果（MT Lab）北京航空航天大学可乐实验室（CoLab）接收联合发表的论文。

本文突破性地提出了分布式感知单阶段模型，以解决具有挑战性的多人3D人体姿势估计问题。该方法同时通过网络前向推理获得3D空间中的人体位置信息和相应的关键点信息简化了预测过程，提高了效率。此外，该方法有效地学习了人体关键点的真实分布，从而提高了基于回归框架的准确性。

多人3D人体姿势估计是目前的热门研究课题，具有广泛的应用潜力。基于单张的计算机视觉RGB图片的多人3D人体姿势估计的问题通常是通过自上而下或自下而上的两个阶段来解决的。然而，这两个阶段的方法需要忍受大量的冗余计算和复杂的后处理，其低效率受到了广泛的批评。此外，现有的方法对人体姿势数据分布缺乏认知，因此无法准确地从2中找到解决方案D图片到3D上述两点限制了现有方法在实际场景中的应用。

美图影像研究院（MT Lab）北京航空航天大学可乐实验室（CoLab）在CVPR 在2022年发表的论文中，提出了分布式感知单阶段模型，并从单个模型中使用该模型RGB据估计，照片中有3个人D相机空间中的人体姿势。该方法将3D人体姿势表示为2.5D人体中心点和3D关键点偏移，以适应图片空间的深度估计，这意味着人体位置信息和相应的关键点信息统一，使单阶段多人3D估计姿势是可能的。

此外，该方法在模型优化过程中学习了人体关键点的分布，为关键点位置的回归预测提供了重要的指导信息，从而提高了基于回归框架的准确性。这种分布式学习模块可以在训练过程中与姿态估计模块一起学习，在测试过程中移除模块，不会增加模型推理计算量。该方法创新性地提出了布学习的难度，该方法创新地提出了迭代更新策略，以逐步接近目标分布。

该模型以全卷积的方式来实现，可以进行端到端的训练和测试。通过这样一种方式，该算法可以有效且精准地解决多人3D在接近两阶段方法精度的同时，人体姿势的估计也大大提高了速度。

论文链接：https://arxiv.org/abs/2203.07697

1 背景

多人3D人体姿势估计是计算机视觉中的一个经典问题，广泛应用于计算机视觉中AR/VR、近年来，随着元宇宙概念的兴起，游戏、运动分析、虚拟试衣等技术备受关注。目前，通常采用两个阶段的方法来解决这个问题：自上而下的方法，即先检测图片中多个人体的位置，然后使用单人3D姿势估计模型分别预测其姿势；自下而上的方法是检测图片中每个人的3D关键点，然后通过相关性将这些关键点分配给相应的人体。

虽然该方法在两个阶段取得了良好的精度，但需要通过冗余计算和复杂的后处理来有序地获取人体位置信息和关键位置信息，这通常使得速度难以满足实际场景的部署需求，因此多人3D迫切需要简化姿态估计算法流程。另一方面，在缺乏数据分布先验知识的情况下，从单张开始RGB图片中估计3D关键点位置，尤其是深度信息，是一个病态问题。这使得传统应用于2D单阶段场景模型不能直接到3D场景扩展，因此学习并获得3D关键点的数据分布是高精度多人3D估计人体姿势的关键。

为了克服上述问题，本文提出了分布式感知单阶段模型（Distribution-Aware Single-stage model, DAS）用于解决基于单张图片的多人3D人体姿态估计这一病态问题。DAS模型将3D人体姿势表示为2.5D人体中心点和3D基于人体关键点偏移，这意味着它有效地适应了RGB图片域的深度信息预测。

同时，它还统一了人体位置信息和关键位置信息，使基于单目图片的单阶段多人3D姿态估计方法成为可能。另外，DAS在优化模型的过程中，3D学习关键点的分布，这是3D关键点的回归提供了有价值的指导信息，从而有效地提高了预测精度。

此外，为了缓解估计关键点分布的难度，DAS通过这种方式，模型采用迭代更新策略，逐步接近真实的分布目标，DAS模型可以从单目中高效准确地出发RGB图片中一次获得多个人的3D估计人体姿势的结果。

2 单阶段多人3D姿势估计模型

在实现上，DAS对于给定的图片，模型是基于回归预测框架构建的，DAS模型通过一次前预测输出图片中包含的人物3D人体姿态。DAS模型将人体中心点表示为中心点置信度图和中心点坐标图 (a) 和 (b) 所示，其中，DAS定位模型使用中心点信度图D图片坐标是人体投影中心点的位置，中心点坐标图用于预测3D相机坐标是人体中心点的绝对位置。DAS模型将人体关键点建模为关键点偏移图，如图1所示 (c) 所示。DAS该模型将中心点置信度图建模为二值图，图中的每个像素点表示人体中心点是否出现在这个位置，如果出现，则为1，否则为0。

DAS该模型以密集的图形建模中心点坐标图，图中每个像素点编码出现在该位置的角色中心x、y和z方向坐标。关键点偏移图类似于中心点坐标图的建模方法。图中出现在这个位置的每个像素点都编码了人体的关键点。x、y、z方向偏移。DAS在网络前向过程中，模型可以平行输出上述三种信息图，避免冗余计算。

此外，DAS这三种信息图可以简单地重建多个人的3D姿势也避免了复杂的后处理过程。与两阶段方法相比，这种紧凑简单的单阶段模型可以获得更好的效率。

图1 用于多人3D人体姿势估计分布感知单阶段模型流程图

3 分布感知学习模型

传统的工作主要用于回归预测框架的优化L1或者L2.损失函数，但研究发现，这种监督训练实际上是模型优化[12]，假设人体关键点的数据分布符合拉普拉斯分布或高斯分布。然而，在实际下，人体关键点的真实分布极其复杂，上述简单假设与真实分布相去甚远。不同于现有的方法，DAS模型在优化过程中学习3D人体关键点分布的真实分布，指导关键点回归预测过程。

考虑到不可追踪的真实分布，DAS模型采用标准化流（Normalizing Flow）以生成适合模型输出的分布，如图2所示。分布感知模块可以在训练过程中与关键点预测模块一起学习。学习完成后，在预测过程中删除分布感知模块。这种分布感知算法可以提高回归预测模型的精度，而不增加额外的计算量。

此外，用于人体关键点预测的特征提取于人体中心点处，这一特征对于远离中心点的人体关键点来说表示能力较弱，和目标在空间上的不一致问题会引起预测的较大误差。为了缓和这一问题，该算法提出了迭代更新策略，该策略利用历史更新结果为出发点，并整合中间结果附近预测值以逐步逼近最终目标，如图3所示。

图 2 标准化流

图 3 迭代优化策略

该算法模型通过全卷积网络（Fully Convolutional Networks, FCNs）训练和测试过程可以端到端进行，如图4所示。根据实验结果，如图5所示，单阶段算法和现有算法state-of-the-art与两阶段方法相比，可以获得接近甚至更好的精度，同时可以大大提高速度，证明它正在解决多人3D人体姿势估计了这个问题的优势，详细的实验结果可以参考表1和表2。根据单阶段算法的可视化结果，如图6所示，该算法可以适应不同的场景，如姿势变化、人体截断和混乱的背景，以产生准确的预测结果，这进一步显示了该算法的强度。

图4 分布式感知单阶段多人3D人体姿态估计网络结构

图5 与现有state-of-the-art两阶段算法对比结果

表1 CMU Panoptic Studio比较数据集结果

表2 MuPoTS-3D比较数据集结果

图6 可视化结果

4 总结

在本文中，来自美图和北航的研究人员创新地提出了一种分布式感知单阶段模型，用于解决具有挑战性的多人3D估计人体姿势的问题。与现有的自顶向下和自底向上模型相比，该模型可以通过网络前向推理获取人体位置信息和相应的关键位置信息，有效简化预测过程，克服现有方法在高计算成本和高模型复杂性方面的缺点。

此外，该方法成功地将标准化流引入多人3D在人体姿势估计任务中，学习人体在训练过程中的关键点分布，并提出迭代回归策略，以缓解分布学习的难度，以实现逐渐接近目标的目的。这样，该算法就可以获得数据的真实分布，以有效地提高模型的回归预测精度。

研究团队

本论文由美图影像研究所撰写（MT Lab）北京航空航天大学可乐实验室（CoLab）研究人员共同提出。美图影像研究院（MT Lab）它是一支致力于计算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品实施的团队，为现有和未来的产品提供核心算法支持，通过尖端技术促进产品开发，被称为「美图技术中心」，多次参与CVPR、ICCV、ECCV计算机视觉国际顶级会议，并获得冠军和亚军十余项。

引用文献：

[1] JP Agnelli, M Cadeiras, Esteban G Tabak, Cristina Vilma Turner, and Eric Vanden-Eijnden. Clustering and classifica- tion through normalizing flows in feature space. Multiscale Modeling & Simulation, 2010.

[12] Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, and Cewu Lu. Human pose regression with residual log-likelihood estimation. In ICCV, 2021.

[15] Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estima- tion for multi-person camera-space localization. In ECCV, 2020.

[47] Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, Hujun Bao, and Xiaowei Zhou. Smap: Single-shot multi- person absolute 3d pose estimation. In ECCV, 2020.

[48] Xingyi Zhou, Dequan Wang, and Philipp Kra ̈henbu ̈hl. Ob- jects as points. arXiv preprint arXiv:1904.07850, 2019.

公众号后台回复“数据集”获取60+深度学习数据集下载～

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近5000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

资讯详情

CVPR 2022｜精准高效估计多人3D姿态，美图&北航联合提出分布感知式单阶段模型...

1 背景

2 单阶段多人3D姿势估计模型

3 分布感知学习模型

4 总结

研究团队

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

CVPR 2022｜精准高效估计多人3D姿态，美图&北航联合提出分布感知式单阶段模型...

1 背景

2 单阶段多人3D姿势估计模型

3 分布感知学习模型

4 总结

研究团队

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录