资讯详情

基于YOLO的新型RGB-D融合方法对行人进行检测和3D定位

标题:Accurate detection and 3D localization of humans using a novel YOLO-based RGB-D fusion approach and synthetic training data

作者:Timm Linder, Kilian Y, Pfeiffer, Narunas V askevicius, Robert Schirmer1, Kai O. Arras

来源:ICRA 2020

姚汉晨

审核:wyc

转载:泡泡机器人SLAM

摘要

大家好,今天的文章是——基于YOLO的新型RGB-D集成方法和综合训练数据准确检测人类和3D定位。

Accurate detection and 3D localization of humans using a novel YOLO-based RGB-D fusion approach and synthetic training data.

  • 挑战-在3的情况下存在遮挡D在空间中稳定定位对象仍然是一个尚未解决的问题;

  • 本文的重点——实时检测RGB-D人类3在数据中D重心。

  1. 提出了一种,该方法将扩展为具有3D将质心损失与中间特征相结合,以这两种方式互补信息;

  2. 采用了一种(transfer learning scheme)方案;

  3. 进一步提出了一种更准确的几何方法,用于训练RGB-D这据有助于提高3D定位精度。

贡献

  1. 这是一个尚未解决的问题,是机器人技术中人体检测等重要研究方向;

  2. 我们是该公司提出了利用现有大规模2的公司D转移学习策略的数据集;

  3. heavy domain randomization),我们可以从合成渲染多人RGB-D集中数据学习3D端到端回归人类质感;

  4. 发现标准的2D裁剪/扩展增强(2)D crop/expansion augmentations)它不适用于深度数据,并提出了一种更准确的几何变体

  5. 的RGB-D数据集中,我们的方法是3D人类检测优于现有的基线方法,无需额外的手工注释D ground truth进行训练。

方法介绍

有传统的检测方案

  1. 的3D目标定位失败-我们的方法可以互补使用RGB数据,因为它不依赖表示;

  2. ,只能检测到一个目标。这种情况在我们的室内环境中很常见,行人经常部分相互遮挡;

  3. 基于RGB-D的二维检测(RGB-based 2D detector)装置——因为我们的中层整合策略(mid-level fusion strategy),我们的方法可以使用互补的深度数据

图1:我们的方法(绿色)定位三维人体质心

比基线(红色)更鲁棒

表I 比较了传统RGB-D行人检测中相机的工作:

表I:量化分析RGB-D相机和3D行人检测中的相关工作

  • 大部分工作集中在刚性物体上;

  • 行人在形状和外观上差别很大,所以在检测上特别有挑战性。

方法

  1. 用合成的RGB-D数据集学习3D行人和定位行人;

  2. 提出一种在RGB-D数据中训练3D检测器的深度感知(depth-aware)和尺度维护( scale-preserving)方案;

  3. 展示我们对YOLOv3检测器修改:混合RGB回及深度信息,回归3D端到端到端的方式。

图2:四幅图显示了3D地面真相的联合位置在我们的合成中RGB-D以及我们的现实世界RGB-D数据集。后者来自离线三维人体姿势估计,如有必要,只用于微调真实世界数据。

图3:总结了我们提出的方法,扩展了YOLOv检测器和中层RGBD特征融合、深度感知增强和三维质感回归。我们表明,后者可以合成RGB-D学习图像。

(1)缩放深度值:(x,y,z)是RBG-D相机中的一个3D点,z/s是缩放的深度值,(u,v)是输入像素。

(2)行人中心(cu,cv,cz)预测:其中,(cx,cy,cz)是1x神经网络输出值,(bu,bv)是高为bh,宽为bw像素左上角。

主要结果

表格II参照实验结果:我们的合成验证集(2个额外场景,5个k不同的像素帧)和准确的地面真相。我们使用了一半的合成训练集(7.5k帧)训练。在合成训练集的情况下,特别是在较小的距离阈值下。结合RGBD融合

表II:我们合成验证集的参考实验和完美的3D ground truth。第二阶段后进行除非标记RGBD融合。

表III:三维中心在我们现实世界测试集的60秒序列中的精确召回曲线。实线对应的评价半径为0.5m,虚线为0.25m。十字架处在F1高峰点。对于我们的方法,S训练数据代表合成,R表示真实的训练数据。

图4:从RGB-D在数据集的场景中获得F1峰值处定性3D检测结果。颜色来自表。III;灰色是地面的真实值

图5:两个距离更长,场景更混乱的结果

点击, 本文下载链接即可获得。

本文仅进行学术分享。如有侵权行为,请联系删除。

在「3D视觉工坊」微信官方账号后台回复:即可下载 3D干货的视觉相关数据涉及相机校准、三维重建、三维视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

在「3D视觉工坊」微信官方账号后台回复:可下载包括等。

在「3D视觉工坊」微信官方账号后台回复:独家下载即可学习课件和视频网站;背景回复:独家下载即可学习课件和视频网站。

标签: 3rg传感器3rg4014

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台