本文来自于AR该领域最著名的学术会议ISMAR,结合之前介绍的图割理论。
作者提出了语义平面 SLAM 该系统利用实例平面分割网络的线索来改进位置估计和映射。尽管使用了主流方法 RGB-D 但在这样的系统中,单目相机的使用仍然面临着鲁棒的数据关联和精确的几何模型拟合等诸多挑战。在大多数现有工作中,几何模型的估计,如单应性估计和分段平面重建(piece-wise planar reconstruction,PPR),通常是标准(贪婪)RANSAC解决。然而,在缺乏场景信息(即尺度)的情况下,设置RANSAC阈值非常非常困难。在这项工作中,作者认为两个提到的几何模型(单应性/3)可以通过最小化涉及空间相关性的能量函数来解决D平面),即图割优化,也解决了训练有素的问题CNN输出不准确。此外,作者根据实验提出了自适应参数设置策略,并对各种开源数据集进行了综合评价。
语义平面SLAM近十年来备受关注,尤其是虚拟现实 (virtual reality,VR) 系统和增强现实(augmented reality,AR)应用。尽管许多人对这一主题进行了深入的研究,但大多数方法仍然集中在RGB-D从深度图像中提取传感器和平面图元。单目法仍然面临着无纹理场景、动态前景、相机纯旋转、帧间各种基线和规模漂移等挑战和困难,其中平面图元只能从有限的3开始D获得的信息。现有的方法要么建立在间接 SLAM 要么直接建立在上面 SLAM但两者都面临着上述挑战。
在这项工作中,作者认为在单目 SLAM 系统通常无法有效解决数据关联和几何模型拟合问题,即从不同的角度(在小基线或大基线下)或从相同的角度(在纯旋转下)帧之间建立多平面特征匹配,以实现单应性估计和分解。为了相对定位相机,图像对称传输误差通常通过三角测量(正深度验证)最小化(symmetric transfer error,STE)验证合理的单应矩阵。
然而,映射尺度不能仅从相对姿态来观察。同时,3D 平面只能根据单目设置只能用噪音和稀疏的点云拟合。
因此,为了解决单目系统的问题,作者首先将实时实例平面分割网络集成到基于特征的网络中 SLAM 在系统中。然后,作者按顺序 RANSAC 采用快速图切割优化引擎技术解决多模拟合问题。
引入了一种基于能量的几何模型拟合方法,即图形优化的顺序 RANSAC 转换为基于特征的平面 SLAM 系统,系统将被隐藏 SLAM 对不同类型的几何多模型进行优化。
提出了一个 SLAM 构建块,它集成了上述基于能量的方法和实例平面分割的最新的卷积神经网络 (CNN)。因此,作者没有将军 CNN 任何输出作为无噪声的sensor测量,但在 SLAM 进一步优化工作流程,提高跟踪优化性能。
最后,作者在单目和 RGB-D 对各种室内数据集进行综合评估。
图1 顺序图割 RANSAC实现鲁棒分段平面重建(PPR)。轻量级语义图从稀疏和噪声点云中重建。不同的颜色表示不同的平面。
图2 所提框架
作者首先介绍了几何模型拟合的标准顺序RANSAC pipeline(单应性或平面结构)以语义线索输入图像序列。然后,为了有效地处理实例分割网络的错误分类,作者并没有简单地使用每个检测到的平面段的标准 RANSAC 平面拟合算法在内部优化步骤(算法1)中使用局部优化 RANSAC 实现更鲁棒的交替图割和模型重拟合pipeline,以自适应不准确的例子分割和噪声。基于特征的 SLAM 框架,如图2所示。
标准 RANSAC在数据中进行单一模型拟合是一种众所周知的方法。隐式一元能量函数为:
使用 0-1 测量目标模型的内点可以重新表示为二元标记问题,参数θ表示在某个阈值ε最大内点模型的向量:
顺序 RANSAC 通过逐个检测模型实例,从数据点集中检测到实例的内点 P 删除。但这种方法的缺点是内点通常分配给包含最多内点的平面,而不是实际的最佳实例。
多几何模型的拟合问题通常被表述为一个最优标记问题,其中二元能量 E(L) 它可以扩展为标签计数惩罚(标签平滑度)和空间规律的附加项。作者使用的能量函数如下:
第一项表示数据点与相应模型之间的几何误差测量,第二项表示空间正则化,用于惩罚图中标签不同的邻域。N表示由数据点集构建的近邻图中的边(如图) 1 中的 Potts 模型) Wpq 它是为每近邻数据点设置的不连续惩罚因素。λ平衡这两个参数。
首先,系统初始化和映射初始化。 SLAM,在初始化步骤中,作者提出了算法1 Homography 矩阵和 Fundamental 矩阵并行计算,使用对称传输误差 (STE) 测量匹配特征点 p = (pref ; pcur) 几何误差 ||Hp||。非线性最小化的初始解决方案是使用最小化 4 对应关系的归一化直接线性转换 (Normalized Direct Linear Transform,NDLT) 得到的。然后最小化单应应用能量:
其中 H = {H|p属于P}模型对参考帧的特征点 p 匹配部分,邻域系统 中N 最小采样(4)采用基于图像空间的网格邻域结构 由渐进式对应) NAPSAC 在图像网格中采样采样器。然后对局部平面进行扩展和映射重估计。
实例分割是语义平面重建的先验信息。然而,如图 3 所示,基于全局的实例分割方法(即 PlaneSegNet)特征丢失,有时无法区分相同纹理的不同特征。需要注意的是,作者没有评估该网络 SLAM 由于训练集,模拟实际情况,因为训练有素 CNN 可能无法在不同的实际场景中泛化。这也是作者在这项工作中引入图形切割方法的原因,可以视为实例分割的后处理步骤。
图3 PlaneSegNet 和 PlaneRCNN 在数据集 TUM RGB-D比较上分割结果。
图4 在数据集 TUM RGB-D 和 ICL-NUIM 在选定序列上构建的轻量级语义图(点和平面patch以及放大后的最佳视图)。
表 1:绝对轨迹误差 RMSE [cm](X 代表跟踪失败,- 代表无法从相应论文中获得的结果)。作者的结果,ORB-SLAM2 和 OpenVSLAM 每个结果都为每个序列执行 5 次的平均值
表 2:在单目设置下,作者的平面 SLAM 系统与原始 ORB-SLAM2 和 OpenVSLAM 相比的运行时间分析 [ms](在数据集 TUM RGB-D平均值:fr3 st tex far),使用台式 PC Intel Xeon(R) E-2146G 12 核 CPU @ 3.50GHz,32GB RAM。PlaneSegNet 在 NVIDIA GTX 1080 Ti 的标准 GPU 评估。
作者也是我们特邀嘉宾:
3D视觉工坊是基于自媒体平台的创始人和合作伙伴致力于发布3D视觉领域最干燥的文章,但毕竟,少数人的力量有限,知识盲点和领域漏洞仍然存在。如果你的文章是,为了更好地展示该领域的知识,所有粉丝和读者征集稿件、、、、、欢迎砸稿~可以为文章内容官方账号将为每位投稿人提供相应的形式,我们支持有价的知识!
邮箱:vision3d@yeah.net 或者添加下面的小助理微信,请注明原稿。
▲长按加微信联系
▲长按关注微信官方账号