CubeSLAM: Monocular 3D Object Detection and SLAM without Prior Models
CubeSLAM: Monocular 3D Object SLAM
Yang S, Scherer S. [J]. arXiv prep rint arXiv:1806.00557, .
作者: YangShichao: ? ? 卡内基梅隆大学机器人研究所:
演示视频:https://www.youtube.com/watch?v=QnVlexXi9_c
0. 摘要
- 提出一种和,而两种方法相互促进;
- 对于 :从 采样产生高质量的立方体目标。
- 进一步评分目标,选择目标。
- :提出新的测量(novel measurement)功能的,利用单视图的检测结果相机位置、目标和特点;
- 与特征点相比,目标可以;
- 公共数据集中不仅获得了良好的位置估计精度,而且提高了 3D 目标检测精度。
1. 简介
- 大多数现有的单目研究可以分别实现对象检测和 SLAM,并且还。 本研究在没有先验的情况下进行 3D 对象映射,还有;
- :
- 使用卷积神经网络(CNN)不同大小和视点的大型数据集中检测 2D对象 [1];
- 机器人,无人车的目标检测 [2];
- 在 SLAM 经典的方法是;
- 本研究同时提出了一个系统 3D 目标检测和 SLAM:
- 鉴于2D物体检测,在假设,通过生成多个有效的立方体方案;
- 利用所选立方体方案姿态;
- 用于两个地方:
-
- 提出一种,无需预测以前的对象模型或方向和尺寸;
- 提出一种 ,在点、相机和目标之间产生新的测量方法。
实验证明,。
2. 相关研究
2.1 单视图 3D 物体检测
- 方法:利用手工制作的特点 [5] 或深度网络 [6,7,8] 来找到与 RGB 图像对齐的最佳目标位置;
- 的情况:
- 早期方法,通过 VPs [9,10] 曼哈顿边缘或光线的组合;
- 多个在地面上 3D 盒子准确取样,然后 [11] ;
- 本研究将其扩展到没有目标大小和方向预测的情况。
2.2 多视图 object SLAM
- 基于的 SLAM ;
- 利用为了增强映射,大致分为分离(decoupled )和耦合(coupled)方法:
- 方法:,然后(image evidence ltering [] )进一步检测和优化 3D 目标姿态;
- 与 2D 与目标检测相比,目标检测有进,但不会改变 SLAM 所以,如果SLAM如果不能构建高质量的地图,法正常工作;
- 方法:通常称为对象级 SLAM
- 首个 [];
- 使用 RGB-D 相机和先验目标 CAD 模型的 SLAM [];
- 来校正单目 SLAM 的尺度漂移 [];
- 使用
3. 单视图目标检测
3.1 3D 物体目标生成
- 3D 立方体可用
9 个自由度表示 :3个自由度表示位置,3个自由度表示旋转,3个自由度表示尺寸;立方体坐标系在其中心 ,与主轴对齐; - 基于
长方体的投影角应该与2D边界框紧密相关的假设 ,投影的四条边对应着 4 个约束,还不足以完全约束 9 个自由度,还需要其他信息,比如已提供的或检测到的物体的尺寸和方向;本文利用消失点来改变减少回归参数 。 - 3D 立方体有三个正交轴,根据旋转 R 和相机参数 K,
通过透视投影生成三个消失点 [10 ]; - 故可以
通过估计物体的三自由度旋转 R 来计算消失点, 在立方体的上边缘采样一个角,然后结合三个消失点分析计算其他 7 个角 。如图 2 所示, a 为观察到三个面的情况,
观察到7个点,并计算出 3 个消失点,假如对点 1 进行采样,可以通过 VP 线与矩形的射线相交确定角 2 和角 3,然后再确定角 4 及其他四个底角 ;同理吧,b,c 两种情况也一样,先采样一个点,通过消失点计算出其他 7 个点。
[外链图片转存失败(img-2NlDvSNE-1565583526053)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig2.PNG?raw=true)]
- 总结:
首先估计物体三自由度的旋转和上边缘的一个角,然后计算所有其他 2D 点,并进一步进行反投影获得 3D 位置和尺寸。所以现在的问题是:如何获得物体的旋转和顶角? - 有一种方式是利用深度网络通过大量的数据集直接训练预测得到,但
本文为了充分利用 SLAM 优化后的几何约束,选择先进行详尽的采样,再进行评分选择最优的结果 ; 对于平放在地面的物体,用于计算 VP 的旋转可以用物体的偏航角(yaw)和相机的俯仰角(pitch)和滚转角(roll)来表示 ,并且相机的两个角参数可以通过 SLAM 或其他传感器来获得,以减少采样空间;比如在 KITTL 数据集中,相机几乎与地面平行,具有固定的俯仰和滚转角。
- 有一种方式是利用深度网络通过大量的数据集直接训练预测得到,但
3.2 目标提案评分
- 对目标物体进行立方体采样有多种方式,如语义分割 [
11 ],边距 [5 ],HOG 特征 [9 ];本文提出一种快速有效的成本函数,使长方体与图像的边缘最佳对齐 ,此方法最适用于带有清晰边缘的四方物体,但由于消失点和 2D 方框也可适用于其他物体,此外SLAM 为物体提供后期优化 。 - 将图像定义为 I ,立方体方案定义为 x,定义
成本函数 :其中
$\phi _{dist},\phi_{angle},\phi_{shape}$
是三项成本项,$w_1,w_2$
是后两者的权重,在经过小样本训练后得到经验值 分别取0.7和2.5
{\color{Blue}E(x|I)=\phi _{dist}(x) + w_1\phi_{angle}(x) + w_2\phi_{shape}(x) \quad (1)}
① 距离误差 2D 长方体$\phi _{dist}$
边缘应与实际图像的边缘匹配 。利用Canny 边缘检测方法构建距离图 ,然后再长方体边缘倒角距离(Chamfer distance 进行累加求和,再通过 2D 框的大小进行归一化。② 角度对齐误差 由于距离误差对假阳性边缘噪声(例如物体表面纹理)非常敏感,故还需要$\phi _{angle}$
检测线段并测量它们是否与 3.1 节立方体生成期间计算的消失点对齐 ,定义角度误差 为:其中
$p$
是消失点VP,$a,b$
是检测到的线段,$\theta$
是两点之间的线角 。
\phi_{angle} = \left \| \theta (a,b)-\theta (p,b) \right \|
③ 形状误差 前面两项可以在 2D 图像空间进行评估,但相似的长方体角可能会产生完全不同的 3D 立方体,提出一个$\phi _{shape}$
代价来惩罚具有较大歪斜比(s=长度/宽度)的立方体 ,定义形状误差的代价函数为:其中
$\sigma$
是一个阈值,若歪斜比小于阈值则不会受到惩罚。
\phi_{shape} = max(s - \sigma ,0)
- 如图 3 所示,是目标边缘对齐的评分,右图中左上角是最好的,右下角是最差的。 [外链图片转存失败(img-rf3LBlag-1565583526054)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig3.PNG?raw=true)]
4. 目标 SLAM
- 目标 SLAM
基于特征点的 ORB-SLAM ,包括相机跟踪的前端和 BA 约束的后端,本文的主要工作是修改了 BA 部分,将特征点、物体和相机位姿约束在一起 。
4.1 BA 优化方案
- BA 用于联合优化不同地图元素,包括相机位姿,点、线等。考虑一组相机位姿
$C = \left \{ c_i \right \}$
,和一组 3D 对象路标$O = \left \{ o_j \right \}$
,还有一系列的特征点$P = \left \{ p_k \right \}$
(因为单独的物体还不足以完全约束相机位姿),可以将 BA 表示成如下的最小二乘问题:其中 e 是 C,O,P之间的测量误差,W 是不同误差的权重矩阵,很多现有的库可以解决优化问题,比如g2o和iSAM。
[外链图片转存失败(img-44sJmXWV-1565583526055)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/f4.PNG?raw=true)]
参数 :- 相机位姿表示为:
$T_{c} \subseteqq SE\left ( 3 \right )$
特征点位姿表示为:$P \subseteqq R_{3}$
物体目标用 9 自由度表示为:$O = \left \{ T_{o},D \right \}$
,其中$T_{o} \subseteqq SE\left ( 3 \right )$
表示 6 自由度的位姿,$D \subseteqq R_{3}$
是 3 自由度的物体的尺寸。
4.2 测量误差
4.2.1 物体-相机测量
根据场景提出两种物体与相机之间的测量误差
- 第一种情形:3D 物体检测准确时使用的
3D 测量误差 定义来自相机坐标系测量 的物体的位姿(本文中下标 m 表示测量量):$O_m = \left \{ T_{om},D_m \right \}$
先将物体真实的位姿旋转至相机坐标系下,再与测量量比较,得到测量误差: [外链图片转存失败(img-UAllh6uc-1565583526055)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/f5.PNG?raw=true)] - 注意:在没有先前的对象模型的情况下,我们基于图像的立方体检测
不能区分对象的正面和背面 。例如,可以通过将对象坐标系旋转 90 度并交换长宽来表示同一个长方体。因此,需要将目标物体沿高度方向旋转 90 , 0 和 180 度以得到公式(5)中的最小误差 。 - 第二种情形:
2D 测量 [外链图片转存失败(img-c0wNmbef-1565583526056)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig4b.PNG?raw=true)] 将立方体路标投影到图像平面,得到上面图 4 中的 2D 红色边框 ,然后将其与检测到的 2D 蓝色边框 进行比较:(?? 红色投影若 不是平视投影出的不是一个矩形?? ) [外链图片转存失败(img-8U6e44PX-1565583526056)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/f6.PNG?raw=true)]$(c,d)$
表示 2D 表框的中心(x1,x2)和尺寸(a,b);- 该测量对比公式(5)的 3D 测量具有更小的不确定性,因为 2D 测量更加准确;
- 但同时投影后会丢失信息,因为
很多不同的 3D 立方体可能投影到同一个 2D 矩阵,只有一个观察面不足以完全约束相机和目标的姿态 。
- 对象测量的不确定度和
权重矩阵 w 要比点方法更复杂;本文简单地给予对象和附近物体更多的测量权重 ,假设,相机-物体之间的距离为 d ,物体的 2D 检测概率为 p ,则权重 为(在KITTI数据集中):阈值在不同情况下不相同 。(怎么个不同法?)下面这个公式不应该是max吗??
{\color{Blue} w = p \times \min ((70 - d),0)/50}
4.2.2 物体-点测量
- 点与物体对象相互约束,如果点所属于物体,则它应位于 3D 长方体内,故可以
先将点投影到立方体目标边框上,然后再与立方体尺寸进行比较 ,此处取 max 是希望点落在立方体内 : [外链图片转存失败(img-oMKRHa6J-1565583526056)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/f7.PNG?raw=true)]
4.2.3 点-相机测量
- 特征点的测量误差部分采用
标准的 3D 点重投影误差 (参考 ORB-SLAM [2 ])
4.3 数据关联
多帧之间关联基于目标要比基于特征点的关联更容易 ,因为包含更多的信息,并可以使用2D 对象跟踪与匹配 的方法,这样使得即使在简单地 2D 目标框重合的情况下也可以运行,但出现如下图 5 所示的严重遮挡情况会出现不稳定;- 绿点是全局中地图特征点,其他颜色点与具有相同颜色的目标关联;其中正前方青色移动车没有添加为 SLAM 路标,因此没有与之关联的特征点;由于双关,对象重叠区域中的点不与任何对象相关联; [外链图片转存失败(img-VNg4B50w-1565583526057)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig5.PNG?raw=true)]
- 此外,
需要从 SLAM 优化结果中检测和剔除动态目标 ,但是标准目标跟踪方法不能分类它是否是静态的,除非使用特定的运动分割。 - 因此,本文提出了另一种
基于点匹配的目标关联方法 ; 许多基于点的 SLAM 可以通过描述符匹配和极线搜索来检测动态点,因此若观察到的点足够属于 2D 目标边界框并且接近 3D 空间中的立方体质心,则首先将点关联到对象;(一些最新的实例分割的方法也可用于改善点-对象的关联精度);然后可以找到可共享地图点最多且超过阈值数(实验中设为10)的对象匹配;- 此外,在第 4.2 节中 BA 期间计算目标物体与点的测量误差时,也使用折中目标-点的关联方法;
- 通过实验,这种方法适用于像图5中的宽基线匹配,重复对象,遮挡和动态场景。
【Question:数据如何关联的?将靠近目标的归到目标中?如何剔除动态目标呢?】
5. 实验
5.1 实现
5.1.1 目标检测
- 对于 2D 目标检测,在
室内场景 使用概率阈值为 0.25 的YOLO 检测器 [26 ],在室外 KITTI 数据集中使用概率阈值为 0.5 的MS-CNN [27 ] ,均可在GPU 上实时运行; 检测过程 : ① 由于数据集中已提供相机的准确位姿 (若没有相机位姿,可以通过 SLAM 位姿估计来得到相机的滚转和俯仰角),只需要采样目标的偏航角 yaw 便可计算消失点 VP (对应 3.1 节); ② 在立方体可以旋转的情况下,生成 15 个偏航角范围为 90 度的物体 (对应 4.2 节); ③ 然后在 2D 边界框的顶部采样 10 个点 ,注意并非所有的样本都可以生成有效的立方体方案,因为有些立方体的顶角可能在 2D 边界框之外;- 本方法的一个优点是
不需要有大量的训练数据,只需要调整公式(1)两个权重 ; 【Question:旋转生成 15 个物体什么意思?为什么是 15 个,偏航角范围为 90 度怎么理解?】
5.1.2 目标 SLAM
- SLAM 算法流程如下图所示; [外链图片转存失败(img-GJAOKW1A-1565583526057)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig4a.PNG?raw=true)]
- 本文建立在 ORB-SLAM2 上,没有更改相机跟踪与关键帧筛选模块,
在新创建在关键帧的基础上检测立方体物体,并使之关联,然后使用相机和特征点位姿进行 BA 调整 ;例如相机旋转较大的具有挑战性场景中的系统鲁棒性 - 当
基线或 视差小于阈值时,立方体还用于初始化难以三角测量的特征点的深度 ,可以在一些具有挑战性的场景中提高稳健性; - 由于
目标的数量远少于特征点 ,在实时运行时,目标关联和 BA 优化非常有效; - 为了获取单目 SLAM 的绝对地图尺度,
提供初始帧的相机高度来确定地图尺度 。 - 本文的目标 SLAM 也可以在没有特征点的情况下独立工作,
在一些缺少特征点的环境下,仍然可以通过目标-相机的测量来估计相机位姿 。 【Question:提供初始帧相机的高度如何确定尺度??】
5.2 单视图目标检测
数据集 :具有真实轨迹 3D 边界框注释的SUN RGBD [ ;28 ] 和 KITTI [29 ] 数据集评估方法 :采用 3D intersection over union(IoU) 算法 (可用于评估两个多维度数据的相似度 ),而不是仅仅根据旋转和视差进行评估;- 若 3D IoU 大于 25% ,视为
阳性检测 [28,11 ]; - 由于本方法不依赖先验目标模型,
为获得目标位置和尺度的绝对比例,仅评估具有已知相机高度的地面目标 ; 对于 KITTI 数据集均知道相机高度,对于 SUN RGBD 数据集,选择了 1670 个图像,可以在视野中完全可见地面对象和地平面
- 若 3D IoU 大于 25% ,视为
5.2.1 目标提案评估
- 首先使用参考论文 [30] 的方法训练和验证分析 KITTI 数据集上提案的质量;
- 在参考论文 [11] 中,首先尽量抽取大量的立方体提案(14k),然后通过语义分析等方法选择前 N 个提案召回;
- 如下图 6a 中红色线(难道不是绿色的线吗??)所示,
在评分之前,本方法可达到 90% 的召回率,每个图像有 800 个原始提案,每个目标约有 200 个原始提案 ; - 在评分之后绿色的线(难道不是红色的线吗??)所示,
仅使用 20 个提案就达到了相同的召回率 ,比论文 [11] 的方法减少很多; 原因 : ① 本文 3D 原始提案的质量很高,因为他们可以保证与 2D 检测到的边界框相匹配; ② 本文高效的评分机制。 注意本文方法有上限,因为在 2D 检测时可能会遗漏物体【Question:文字描述中红色的线和绿色的线是不是反了?评分之后,这个评分指的是什么?是3.1节中的公式1吗?】 [外链图片转存失败(img-WgPxpARn-1565583526057)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig6.PNG?raw=true)]
5.2.2 最终检测
- 评估挑选出的
最佳提案的最终准确性 。 SUN RGBD 数据集 - 暂时未找到训练好的 3D 检测算法,本文在
室内环境 中比较两种公共方法SUN primitive [9 ] 和3D Geometric Phrases (3dgp) [31 ]; - 在
检测和反投影 到 3D 空间时,修改了部分代码以使用实际的相机位姿和校准矩阵 ; - 为消除 2D 检测器的影响,
两种方法均仅评估在 2D 检测框的 IoU 大于 0.7 对应的目标的 3D IoU ; - 如上图 6b 和下图 7 所示,
本文方法检测到更多更准确的立方体 ,所以更加稳健;平均的 3D IoU 与使用先验 CAD 模型的 3dgp 相比更小 ,但如果仅通过 3dgp 对相同的检测对象进行评估则更高。 [外链图片转存失败(img-hZYI9Sjr-1565583526058)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig7.PNG?raw=true)]
- 暂时未找到训练好的 3D 检测算法,本文在
KITTI 数据集 - 使用深度网络与其他两种单目算法 [
12,30 ] 比较; - 如图 6b 所示,本文方法与使用先验模型的 SubCNN 表现类似;直接预测车辆方向和尺寸的 [12] 表现更差;
- 由于只有一个 具有固定相机视角的对象类“汽车”,因此 CNN 预测比手工设计特征更好;
- 在 6b 中最后一行,选择前 10 个立方体方案进行评估,表明在少数提案中也能有较高的质量。
- 使用深度网络与其他两种单目算法 [
5.3 目标 SLAM
- 目标 SLAM 的评估指标:
相机位姿估计和 BA 优化之后的 3D 目标 IoU ;- 均方根误差(RMSE)和 KITTI 相对平移误差用于评估相机位姿;
5.3.1 TUM 和 ICL-NUIM RGBD 数据集
- TUM 和 ICL-NUIM RGBD 数据集[
32,33 ] 提供相机 ground truth 轨迹(此处仅使用 RGB 图像) ;使用深度图像构造全局点云 ,并手动标记 3D 立方体作为 ground truth 目标 ; - 首先测试 TUM fr3 cabinet 序列,如图 8a 所示,这个
具有挑战性的低纹理数据集,由于特征点少现有单目 SLAM 算法均失败 ; - 利用 4.2 节中的方法,
将 3D 物体作为唯一的 SLAM 路标进行目标-相机测量 ;在图 8a 左侧中使用 SLAM 估计的相机姿态在某些帧下检测到的立方体,可以看出底部边界框存在很大的测量误差,经过多视图优化,得到右侧图的红色立方体基于与真实点云匹配 ; - 实验数据对比如图 8b 所示:
- 对于
低纹理的 fr3 cabinet 序列 中经过SLAM 优化之后 3D IoU 提升,相机姿态误差为 0.17m ; - 对于
特征丰富的 ICL 客厅序列 ,由于单目的 DSO 和 ORB-SLAM 没有绝对尺度,本文计算尺度对齐后的姿态误差 [13 ],在这个序列中提高了物体检测的精度,但牺牲了一定的相机位姿准确性 ; - 在图 1a 中的 ICL 数据的目标建图(其中Mesh网格模型仅用于显示,不用于检测)可以看出,
本文方法检测除了不同的目标,展示了没有先前模型的3D检测的优势 。
- 对于
【Question:本文不是研究单目吗?图8a的深度信息只是用来显示检测的物体与真实的物体的误差吗?图1中的椅子沙发模型是怎么来的?离线建模的吗?怎么调用显示的呢?】
[外链图片转存失败(img-3YWkIaNj-1565583526058)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig8.PNG?raw=true)] [外链图片转存失败(img-PIeNrqO2-1565583526059)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig1.PNG?raw=true)]
5.3.2 Collected chair 数据集
- 如图 9a,b 用 Kinect RGBD 相机收集两个椅子的数据集,
RGBD ORB-SLAM 测量的相机位姿视为是相机的 ground truth ; - 图 9a ,在优化之后,立方体框与相关的 3D 特征点紧密联合; 图 9b ,相机旋转剧烈,其定量的误差测量在图 8b 的底部两行中, 3D IoU 也得到了改善;
- DSO 能在第一个数据集中运行,但在第二个数据集中效果糟糕,无法进行定量计算;
单目的 ORB-SLAM 在两个数据集中都无法进行初始化 ,本文方法的立方体检测可以从单个视图提供的深度点来初始化 ;
[外链图片转存失败(img-kt6XAGkA-1565583526059)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig9.PNG?raw=true)]
5.3.3 KITTI 数据集
- 测试两种KITTI数据集,一种是
提供目标注释 ground truth 的短序列 ,另一种是没有目标注释的标准测距基准测试的长序列 ; - 由于
不确定度低 ,在 BA 期间的测量误差模型采用 4.2 节中2D 相机-目标测量 ; - 在于 ORB-SLAM 进行比较时,
关闭了其闭环线程,以更好地测量单目尺度漂移 ; 通过第一帧相机的高度(实验中为 1.7 m)来缩放 ORB-SLAM 的初始地图 ,就可以直接评估绝对轨迹误差而不需要轨迹尺度对齐;- 图 10 中,在第一次转弯之前的初始贵极端与 ground truth 匹配良好,说明尺度缩放正确;
- 在
KITTI 数据集中还使用先验的汽车尺寸(实验中为 w = 3:9;l = 1:6;h = 1:5)初始化目标尺寸,以保持长期的尺度一致性 ,在参考论文[19,20]中也使用这样的方法;特别是目标在一些序列中观察不到时尤为有用。 [外链图片转存失败(img-KPPBveUh-1565583526060)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/fig10.PNG?raw=true)] - 对于
第一类提供目标注释的短序列 ,选择了 19 个 KITTI 原始序列,目标注释最多的是 序列;2011_09_26 drive x
- 如图表 1,3D 目标
IoU 和相机位姿均得到改善 ; - 尤其是相机位姿,
目标 SLAM 提供的几何约束可以减少 SLAM 的尺度漂移 ,部分目标建图和位姿估计的可视化效果见图 1b 和图 10 所示。
- 如图表 1,3D 目标
[外链图片转存失败(img-myHRloIp-1565583526060)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/tab1.PNG?raw=true)]
- 对于
第二类 KITTI 里程计数据集 : 单目恢复尺度 的方法:- 文献[34,35]
使用恒定的地面高度假设来减少尺度漂移 ; - 文献[19,20]
基于目标的尺度恢复方法 ;
- 文献[34,35]
- 没有与 ORB-SLAM 比较,因为没有闭环无法在长序列中恢复尺度,且存在如图 10 所示的漂移;
- 如表 2 所示,与使用目标恢复尺度的其他 SLAM 比较,
它们将车辆表示为球体或仅使用车辆高度信息,没有本文使用的立方体准确 ;并且与基于地面高度缩放的方法相接近; - 在 Seq 02, 06, 10 序列中表现更差是因为长距离可见的物体不多产生漂移;故
提出一种地面高度假设与目标 SLAM 结合的方法,若再最近20帧中没有可见物体,会使用点云平面拟合,使用恒定地面高度假设来缩放相机位姿和局部地图; - 如表 2 中的
组合方法 ,在 KITTI 标准中达到了最精确地水平 ; - 注意:
基于地面高度的方法也有局限性,比如不适用于飞行器或手持相机,如果地面不可见,比如图 5 中的图像帧,会导致失败;前视车辆遮挡了地面信息,这也是很多方法在 KITTI 07 数据集上失败或表现不佳的原因。 [外链图片转存失败(img-NEJ0CFSg-1565583526060)(https://github.com/wuxiaolang/pictures_share_link/blob/master/Paper/2018/20181130/tab2.PNG?raw=true)]
- 如表 2 中的
6. 结论
- ① 研究内容:本文提出一种
没有先验目标模型的单目三维目标检测与 SLAM 方法 ,并首次证明,语义目标检测与几何 SLAM 在一个统一框架中可以相互关联。- 单视图的
三维物体检测 ,基于消失点从二维边界框中有效地生成高质量的立方体提案 ,然后通过图像信息有效地对提案进行评分; - 提出一种
目标级的 SLAM ,在相机-目标-点之间产生测量,并提出新的目标关联方法,有效处理遮挡和动态情形; 目标可以为点提供深度约束,为相机提供尺度约束,反过来,SLAM 也为 3D 目标检测提供初始化 。
- 单视图的
- ② 实验结果:本文在不同的室内和室外数据集上评估了以上两个功能,在 SUN RGBD 数据集上实现了最准确的
目标检测 ,在 KITTI 里程计数据集上达到了最佳的位姿估计 。 - ③ 未来展望:将来考虑
动态目标和使用目标的稠密地图 ,将更完整的场景理解 与 SLAM 优化相结合。
R. 参考文献
-
[1] He K, Gkioxari G, Dollár P, et al.Mask r-cnn [C]//Computer Vision (ICCV ), 2017 IEEE International Conference on. IEEE,2017 : 2980-2988. -
[2] Xiang Y, Mottaghi R, Savarese S.Beyond pascal: A benchmark for 3d object detection in the wild [C]//Applications of Computer Vision (WACV),2014 IEEE Winter Conference on. IEEE, 2014: 75-82.室外 3D 目标检测
-
[3] Mur-Artal R, Montiel J M M, Tardos J D.ORB-SLAM: a versatile and accurate monocular SLAM system [J]. IEEE Transactions on Robotics,2015 , 31(5): 1147-1163. -
[4] Yang S, Scherer S.Direct monocular odometry using points and lines [J]. arXiv preprint arXiv:1703.06380,ICRA 2017 .作者前期研究,融合点线的直接法视觉里程计
-
[5] Lim J J, Pirsiavash H, Torralba A.Parsing ikea objects: Fine pose estimation [C]//Proceedings of the IEEE International Conference on Computer Vision.ICCV 2013 : 2992-2999.基于边缘信息进行物体检测
-
[9] Xiao J, Russell B, Torralba A.Localizing 3D cuboids in single-view images [C]//Advances in neural information processing systems.2012 : 746-754. 基于HOG 特征进行物体检测 ,单视图中本地立方体检测 -
[11] Chen X, Kundu K, Zhang Z, et al.Monocular 3d object detection for autonomous driving [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.ICCV 2016 : 2147-2156.用于自动驾驶的
单目三维物体检测 ,语义分割 -
[12] Mousavian A, Anguelov D, Flynn J, et al.3d bounding box estimation using deep learning and geometry [C]//Computer Vision and Pattern Recognition (CVPR ), 2017 IEEE Conference on. IEEE,2017 : 5632-5640.基于深度学习与几何信息的
3D物体边界估计 -
[13] Engel J, Koltun V, Cremers D.Direct sparse odometry [J]. IEEE transactions on pattern analysis and machine intelligence,2018 , 40(3): 611-625.DSO, 单目相机尺度对齐计算姿态误差 -
[17] Bao S Y, Bagra M, Chao Y W, et al.Semantic structure from motion with points, regions, and objects [C]//Computer Vision and Pattern Recognition (CVPR ), 2012 IEEE Conference on. IEEE,2012 : 2703-2710.首个语义 SFM 来联合优化相机位姿、物体、点和平面测量
-
[18] Salas-Moreno R F, Newcombe R A, Strasdat H, et al.Slam++: Simultaneous localisation and mapping at the level of objects [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2013 : 1352-1359. -
[19] Frost D P, Kähler O, Murray D W.Object-aware bundle adjustment for correcting monocular scale drift [C]//Robotics and Automation (ICRA ), 2016 IEEE International Conference on. IEEE,2016 : 4770-4776.目标感知的BA校正单目尺度漂移 -
[20] Sucar E, Hayet J B.Bayesian scale estimation for monocular slam based on generic object detection for correcting scale drift [C]//2018 IEEE International Conference on Robotics and Automation (ICRA ). IEEE,2018 : 1-7.物体检测校正尺度漂移 -
[21] Gálvez-López D, Salas M, Tardós J D, et al.Real-time monocular object slam [J]. Robotics and Autonomous Systems,2016 , 75: 435-449. -
[26] Redmon J, Farhadi A.YOLO9000: better, faster, labeler [J]. arXiv preprint,CVPR2017 .YOLO 目标检测 -
[27] Cai Z, Fan Q, Feris R S, et al.A unified multi-scale deep convolutional neural network for fast object detection [C]//European Conference on Computer Vision. Springer, Cham,ECCV2016 : 354-370.MS-CNN 目标检测 -
[28] Song S, Lichtenberg S P, Xiao J.Sun rgb-d: A rgb-d scene understanding benchmark suite [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.CVPR2015 : 567-576.SUN RGBD数据集 -
[30] Xiang Y, Choi W, Lin Y, et al.Subcategory-aware convolutional neural networks for object proposals and detection [C]//Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on. IEEE,2017 : 924-933.用于目标提案和检测的子类别感知卷积神经网络 -
[31] Choi W, Chao Y W, Pantofaru C, et al.Understanding indoor scenes using 3d geometric phrases [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2013 : 33-40.3D 几何语义理解室内场景 - [34] Lee B, Daniilidis K, Lee D D.
Online self-supervised monocular visual odometry for ground vehicles [C]//Robotics and Automation (ICRA), 2015 IEEE International Conference on. IEEE,ICRA2015 : 5232-5238.使用恒定的地面高度假设来减少尺度漂移 - [35] Song S, Chandraker M, Guest C C.
High accuracy monocular SFM and scale correction for autonomous driving [J]. IEEE transactions on pattern analysis and machine intelligence,2016 , 38(4): 730-743.使用恒定的地面高度假设来减少尺度漂移
2018.11.30 Email:wuyanminmax@gmail.com Blog:www.wuxiaolang.cn