伊瓢 发自 凹非寺量子位 报道 | 公众号 QbitAI
如何在高帧数下实现人体姿势检测?
下面的刷屏twitter视频给出了答案。
这是今年ECCV上一篇叫《Pose Proposal Networks》作者是日本柯尼卡美能达公司的大井(Taiki SEKII),结合了去年CVPR上的和CMU的,在高帧数视频中实现多人姿态检测的新方法。
高帧数,无压力
其他方法,比如NIPS 2017 的AE(Associative embedding)、ICCV 2017的RMPE(Regional multi-person pose estimation)、CVPR 2017的PAF(Realtime multi-person 2D pose estimation using part affinity fields),无法实现高帧数的姿态检测,特别是100帧以上的帧数视频。
在COCO数据集也不虚,与谷歌相比PersonLab它可以在更高的帧数下运行。
看具体数据,头、肩、肘、整体上半身识别超过其他方法,整体得分不虚。
神奇的姿势大冒险
此外,还可以避免常规姿势检测中容易出错的姿势。
例如,从天而降的奇怪姿势:
拥挤场景过多:
还有两个人重叠的图像。
请注意,站在右边的女人和她前面的瑜伽垫上的人完全分开了,不会开以下手臂和腿误的笑话。
原理
这是基于ResNet-18的PPN对多人姿势检测的过程:
a) 输入图像;b) 从输入图像中检测部分边界框;c) 检测出肢体;d) 区分图中每个人。
这篇论文的方法是先将图片分割为较小的网格,使用较小的网络对每一幅网格图片进行单次物体检测范例,之后通过区域提议(region proposal)框架将姿态检测重定义为目标检测问题。
之后,使用单次CNN直接检测肢体,通过新颖的概率贪婪解析步骤,生成姿势提议。
区域提案部分被定义为边界框检测(Bounding Box Detections),大小和被检测人身材成比例,并且可以仅使用公共关键点注释进行监督。
整个架构由单个完全CNN构成,具有相对较低分辨率的特征图,并使用专为姿势检测性能设计的损耗函数直接进行端到端优化,此架构称为。PPN借鉴了YOLO的优点。
传送门
论文:http://taikisekii.com/PDF/Sekii_ECCV18.pdf
Poster:http://taikisekii.com/PDF/Sekii_ECCV18_pos.pdf
至于code嘛,暂时没有。
— —
活动推荐
华为云•普惠AI,让开发充满AI!
爱上你的代码,爱做 “改变世界”的行动派!
大会将首次发布AI开发框架,从AI模型训练到AI模型部署的全套开发一站式完成!让AI开发触手可及!
QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态