《A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence》。

摘要

一、引言

1.1 为什么学习基于深度学习的定位与建图

1.2 与其它综述相比

1.3 综述结构

二、现有方法分类

2.1里程计估计

2.2 地图构建

2.3全局定位

2.4同步定位和构图

三、里程估计

3.1 视觉里程计

3.1.1 有监督VO学习(端到端VO）

3.1.2 无监督的VO学习

3.1.3 混合模式VO

3.2 视觉惯性里程计

3.3 惯性里程计

3.4 激光里程计

3.5 里程估计估计对比

四、建图

4.1 几何建图

4.1.1 深度表示

4.1.2 体素表示

4.1.3 点云表示

4.1.4 网格表示

4.2 语义建图

4.3 通用地图

5 全局定位

5.1 2D到2D定位

5.1.1 基于显式地图定位

5.1.2 定位基于隐藏地图

5.2 2D到3D的定位

5.2.1 基于描述符匹配的定位

5.2.3 基于场景坐标回归的定位

5.3 3D到3D定位

6 SLAM

6.1 局部优化

6.2 全局优化

6.3 关键帧和回环检测

6.4 估计不确定性

7 开放问题

8 结论

9 some thing to say

图如侵权，删之~~

参考文献

摘要

基于深度学习的定位和建图最近引起了极大的关注。基于深度学习的解决方案不是通过利用物理模型或几何理论来创建人工设计的算法，而是提供了一种以数据驱动的方式解决问题的替代方案。受益于不断增加的数据量和计算能力，这些方法正在快速发展成为一个新领域，该领域提供准确和强大的系统来跟踪运动和估计场景及其结构以用于现实世界的应用。在这项工作中，我们提供了全面的调查，并提出了一种使用深度学习进行定位和建图的新分类法。我们还讨论了当前模型的局限性，并指出了可能的未来方向。涵盖了广泛的主题，从学习里程估计、建图到全局定位和同时定位和映射(SLAM)。我们重新审视了使用车载传感器感知自我运动和场景理解的问题，并展示了如何通过将这些模块集成到未来的空间机器智能系统(SMIS)中来解决这个问题。我们希望这项工作能够将机器人、计算机视觉和机器学习社区的新兴工作联系起来，并为未来的研究人员应用深度学习来解决定位和建图问题提供指导。

一、引言

定位和建图是人类和移动机器人的基本需求。作为一个激励的例子，人类能够通过多模态感官感知来感知他们的自我运动和环境，并依靠这种意识在复杂的三维空间中定位和导航自己[1]。这种能力是人类空间能力的一部分。此外，感知自我运动及其周围环境的能力在发展认知和运动控制方面起着至关重要的作用[2]。同样，人工代理或机器人也应该能够感知环境并使用板载传感器估计其系统状态。这些代理可以是任何形式的机器人，例如自动驾驶车辆、送货无人机或家庭服务机器人，感知周围环境并自主做出决策[3]。同样，随着新兴的增强现实(AR)和虚拟现实(VR)技术交织网络空间和物理环境，机器感知的能力支撑着无缝的人机交互。进一步的应用还包括移动和可穿戴设备，例如智能手机、腕带或物联网(IoT)设备，为用户提供范围广泛的基于位置的服务，从行人导航[4]到运动/活动监测[5]、动物追踪[6]或急救人员的应急响应[7]。

为这些和其他数字代理启用高度自治需要精确和强大的定位，并逐步建立和维护世界环境模型，并具有持续处理新信息和适应各种场景的能力。这样的任务在我们的工作中被称为“空间机器智能系统（SMIS）”，或者最近在[8]中被称为空间人工智能。在这项工作中，广义而言，定位是指获取机器人运动的内部系统状态的能力，包括位置、方向和速度，而建图表示感知外部环境状态和捕捉周围环境的能力，包括几何、外观和2D或3D场景的语义。这些组件可以单独行动以分别感知内部或外部状态，也可以联合行动，如同时定位和建图(SLAM)以跟踪姿势并在全局框架中建立一致的环境模型。

1.1 为什么学习基于深度学习的定位与建图

定位和建图问题已经研究了几十年，开发了各种复杂的手工设计模型和算法，例如里程估计（包括视觉里程计[9]、[10]、[11]、视觉-惯性里程计[12]、[13]、[14]、[15]和LIDAR里程计[16]）、基于图像的定位[17]、[18]、位置识别[19]、SLAM[10]、[20]、[21]和运动结构(SfM)[22]、[23]。在理想条件下，这些传感器和模型能够准确地估计系统状态而不受时间限制和跨越不同环境。然而，在现实中，不完善的传感器测量、不准确的系统建模、复杂的环境动态和不切实际的约束都会影响手动系统的准确性和可靠性。

基于模型的解决方案的局限性，以及机器学习，尤其是深度学习的最新进展，促使研究人员考虑将数据驱动（学习）方法作为解决问题的替代方法。图1将输入传感器数据（例如视觉、惯性、激光雷达数据或其他传感器）与输出目标值（例如位置、方向、场景几何或语义）之间的关系总结为映射函数。传统的基于模型的解决方案是通过手工设计算法和校准到特定的应用领域来实现的，而基于学习的方法通过学习的知识构建这个映射函数。基于学习的方法的优点有三个：

首先，学习方法可以利用高度表达的深度神经网络作为通用逼近器，并自动发现与任务相关的特征。这一特性使学习模型能够适应环境，例如无特征区域、动态强光条件、运动模糊、精确的相机校准，这些都是手动建模的挑战[3]。作为一个有代表性的例子，视觉里程计通过在其设计[24]、[25]中结合数据驱动的方法，在鲁棒性方面取得了显着的进步，优于最先进的传统算法。此外，学习方法能够将抽象元素与人类可理解的术语[26]、[27]联系起来，例如SLAM中的语义标签，这很难用正式的数学方式来描述。

其次，学习方法允许空间机器智能系统从过去的经验中学习，并积极利用新信息。通过构建一个通用的数据驱动模型，它避免了在部署之前指定有关数学和物理规则的全部知识[28]来解决特定领域问题的人力。这种能力可能使学习机器能够在新场景或面对新情况下自动发现新的计算解决方案，进一步发展自己并改进他们的模型。一个很好的例子是，通过使用新颖的视图合成作为自监督信号，可以从未标记的视频中恢复自运动和深度[29]、[30]。此外，通过构建任务驱动的地图，学习的表示可以进一步支持高级任务，例如路径规划[31]和决策制定[32]。

第三个好处是它能够充分利用越来越多的传感器数据和计算能力。深度学习或深度神经网络具有扩展到大规模问题的能力。DNN框架内的大量参数通过最小化损失函数、通过反向传播和梯度下降算法在大型数据集上进行训练来自动优化。例如，最近发布的GPT-3[33]，最大的预训练语言模型，具有令人难以置信的超过1750亿个参数，即使没有微调。此外，还发布了各种与定位和建图相关的大规模数据集，例如在自动驾驶汽车场景中，[34]、[35]、[36]具有丰富的传感器数据组合的集合，以及运动和语义标签。这给了我们一种想象，即可以利用数据和计算的力量来解决定位和建图问题。

然而，还必须指出的是，这些学习技术依赖于大量数据集来提取具有统计意义的模式，并且很难推广到集合外的环境。缺乏模型可解释性。此外，虽然高度可并行化，但它们通常比简单模型的计算成本更高。第7节讨论了限制的详细信息。

1.2 与其他综述对比

有很多篇调查论文广泛讨论了基于模型的定位和建图方法。[37]、[38]很好地总结了SLAM问题在早期几十年的发展。开创性的调查[39]对现有的SLAM工作进行了彻底的讨论，回顾了发展的历史并描绘了几个未来的方向。尽管本文包含简要讨论深度学习模型的部分，但并未全面概述该领域，尤其是由于过去五年该领域研究的爆炸式增长。其他SLAM调查论文仅关注SLAM系统的个别风格，包括SLAM[40]的概率公式、视觉里程计[41]、位姿图SLAM[42]和动态环境中的SLAM[43]。我们建议读者参考这些调查，以便更好地了解基于传统模型的解决方案。另一方面，[3]讨论了深度学习在机器人研究中的应用；然而，它的主要关注点并不是专门针对定位和建图，而是更广泛地看待深度学习在机器人技术的广泛背景下的潜力和局限性，包括机制学习、推理和规划。

值得注意的是，虽然定位和建图问题属于机器人技术的关键概念，但学习方法的结合与机器学习、计算机视觉甚至自然语言处理等其他研究领域同步发展。因此，在将相关工作全面总结成调查论文时，这个跨学科领域带来了不小的困难。据我们所知，这是第一篇全面而广泛地涵盖现有基于深度学习的定位与和建图工作的调查文章。

1.3 综述结构

本文的其余部分组织如下：第2节概述并介绍了现有基于深度学习的定位和建图的分类；第3、4、5、6节分别讨论了现有的关于相对运动（里程计）估计的深度学习工作，几何、语义和一般的建图方法、侧重于SLAM后端的全局定位以及同时定位和建图；第7节总结了开放性问题，讨论现有工作的局限性和未来前景；最后第8节结束了论文。

二、现有方法分类

我们提供了与定位和建图相关的现有深度学习方法的新分类，以连接机器人、计算机视觉和机器学习领域。从广义上讲，它们可以分为里程估计、建图、全局定位和SLAM，如图 2 所示的分类所示：（以下为不同分类中深度学习的作用）

2.1 里程计估计

里程计估计涉及计算两帧或多帧传感器数据之间在平移和旋转方面的相对变化。它持续跟踪自身运动，然后根据位置和方向将这些姿势变化相对于初始状态进行整合，以得出全局姿势。这被广泛称为所谓的航位推算解决方案。里程计估计可用于提供位姿信息并作为里程计运动模型来辅助机器人控制的反馈回路。关键问题是从各种传感器测量中准确估计运动变换。为此，应用深度学习以端到端的方式对运动动力学进行建模，或提取有用的特征以混合方式支持预构建的系统。

2.2 地图构建

Mapping 建立和重建一个一致的模型来描述周围环境。建图可用于为人类操作员和高级机器人任务提供环境信息，限制里程估计的误差漂移，并检索全局定位的查询观察[39]。深度学习被用作从用于建图的高维原始数据中发现场景几何和语义的有用工具。基于深度学习的建图方法被细分为几何映射、语义映射和一般映射，这取决于神经网络是学习场景的显式几何或语义，还是将场景编码为隐式神经表示。

2.3全局定位

全局定位在具有先验知识的已知场景中检索移动代理的全局位姿。这是通过将查询输入数据与预先构建的2D或3D地图、其他空间参考或之前访问过的场景进行匹配来实现的。它可以用来减少航位推算系统的位姿漂移或解决“被绑架机器人”问题[40]。深度学习用于解决因视图、光照、天气和场景动态、查询数据和地图之间的变化而变得复杂的棘手数据关联问题。

2.4同步定位和建图

同步定位和建图（SLAM）将上述里程估计、全局定位和建图过程集成为前端，并联合优化这些模块以提高定位和建图的性能。除了上述这些模块之外，其他几个SLAM模块执行以下操作以确保整个系统的一致性：局部优化确保相机运动和场景几何的局部一致性；全局优化旨在约束全局轨迹的漂移，并在全局范围内；关键帧检测用于基于关键帧的SLAM以实现更有效的推理，而一旦通过闭环检测检测到闭环，则可以通过全局优化来减轻系统误差漂移；不确定性估计提供了对学习姿势和建图的置信度量，这对于SLAM系统中的概率传感器融合和后端优化至关重要。

尽管各个组件的设计目标不同，但上述组件可以集成到空间机器智能系统(SMIS)中以解决现实世界的挑战，从而实现稳健的操作和恶劣环境下的长期自治。这种基于深度学习的集成定位和建图系统的概念图如图3所示，显示了这些组件的关系。在以下部分中，我们将详细讨论这些组件。

三、里程计估计

我们从里程计估计开始，它持续跟踪相机的自我运动并产生相对姿势。在给定初始状态的情况下，通过整合这些相对姿势来重建全局轨迹，因此保持运动变换估计足够准确以确保全局范围内的高精度定位至关重要。本节讨论从各种传感器数据中实现里程估计的深度学习方法，这些数据在数据属性和应用场景上存在根本差异。讨论主要集中在视觉、惯性和点云数据的里程计估计，因为它们是移动代理感知模式的常见选择。

3.1 视觉里程计

视觉里程计（VO）估计相机的自我运动，并将图像之间的相对运动整合到全局姿势中。深度学习方法能够从图像中提取高级特征表示，从而提供解决VO问题的替代方法，而不需要手工设计的特征提取器。现有的基于深度学习的VO模型可以分为端到端VO和混合VO，这取决于它们是纯基于神经网络的还是经典VO 算法和深度神经网络的组合。根据训练阶段真实标签的可用性，端到端的VO系统可以进一步分为有监督的VO和无监督的VO。

3.1.1 有监督VO学习（端到端VO）

我们首先引入有监督的VO，这是基于学习的里程计的最主要方法之一，通过在标记数据集上训练深度神经网络模型来直接构建从连续图像到运动变换的映射函数，而不是利用图像的几何结构，如传统的VO系统[41]。最基本的，深度神经网络的输入是一对连续的图像，输出是估计的两帧图像之间的平移和旋转。

该领域的首批作品之一是Konda等人[44]。这种方法将视觉里程计定义为一个分类问题，并使用卷积神经网络(ConvNet)从输入图像中预测离散的速度和方向。科斯坦特等人[45]使用ConvNet从密集光流中提取视觉特征，并基于这些视觉特征输出帧到帧运动估计。尽管如此，这两项工作都没有实现从图像到运动估计的端到端学习，它们的性能仍然有限。

DeepVO[24]利用卷积神经网络(ConvNet)和循环神经网络(RNN)的组合来实现视觉里程计的端到端学习。DeepVO框架由于其在端到端学习方面的专业化，成为实现VO监督学习的典型选择。图4(a)显示了这种基于RNN+ConvNet的VO系统的架构，该系统通过ConvNet从图像对中提取视觉特征，并通过RNN传递特征以对特征的时间相关性进行建模。其ConvNet编码器基于FlowNet结构来提取适用于光流和自运动估计的视觉特征。使用基于FlowNet的编码器可以被视为将光流的先验知识引入到学习过程中，并有可能防止DeepVO过度拟合到训练数据集。递归模型将历史信息汇总到其隐藏状态中，以便从过去的经验和来自传感器当前观测的ConvNet特征推断输出。它在以真实相机姿势作为标签的大规模数据集上进行训练。为了恢复框架的最优参数θ∗，优化目标是最小化估计平移p^∈R3和基于欧拉角的旋转φ^∈R3的均方误差(MSE)：

其中(p^t,φ^t)是时间步长t的相对位姿估计，(p,φ)是相应的真实值，θ是DNN框架的参数，N是样本数。

DeepVO展示了在估计驾驶车辆姿态方面的令人印象深刻的结果，即使在以前看不见的场景中也是如此。在KITTI里程计数据集[46]的实验中，这种数据驱动的解决方案优于传统的代表性单目VO，例如VISO2[47]和ORB-SLAM（没有闭环）[21]。另一个优点是监督VO自然地产生具有来自单目相机的绝对尺度的轨迹，而经典的VO算法仅使用单目信息是尺度模糊的。这是因为深度神经网络可以从大量图像中隐式地学习和维护全局尺度，这可以看作是从过去的经验中学习来预测当前的尺度度量。

基于这种典型的监督VO模型，许多工作进一步扩展了这种方法以提高模型性能。为了提高监督VO的泛化能力，[48]结合了课程学习（即通过增加数据复杂度来训练模型）和几何损失约束。知识蒸馏（即通过教授一个较小的模型来压缩一个大模型）被应用到有监督的VO框架中，以大大减少网络参数的数量，使其更适合在移动设备上进行实时操作[49]。此外，薛等人[50]引入了一个存储全局信息的内存模块，以及一个使用保留的上下文信息改进姿势估计的精炼模块。

[48] M. R. U. Saputra, P. P. de Gusmao, S. Wang, A. Markham, andN. Trigoni, “Learning monocular visual odometry through geometry aware curriculum learning,” in 2019 International Conference onRobotics and Automation (ICRA), pp. 3549–3555, IEEE, 2019.

[49] M. R. U. Saputra, P. P. de Gusmao, Y. Almalioglu, A. Markham,and N. Trigoni, “Distilling knowledge from a deep pose regressor network,” in Proceedings of the IEEE International Conference onComputer Vision (ICCV), pp. 263–272, 2019.

[50] F. Xue, X. Wang, S. Li, Q. Wang, J. Wang, and H. Zha, “Beyondtracking: Selecting memory and refining poses for deep visual odometry,” in Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition (CVPR), pp. 8575–8583, 2019.

总之，这些端到端学习方法受益于机器学习技术和计算能力的最新进展，可以直接从原始图像中自动学习姿态变换，从而解决具有挑战性的现实世界里程计估计。

3.1.2 无监督的VO学习

人们对探索VO的无监督学习越来越感兴趣。无监督解决方案能够利用未标记的传感器数据，因此它可以节省标记数据的人力，并且在没有标记数据的新场景中具有更好的适应和泛化能力。这是在一个自监督框架中实现的，该框架通过利用视图合成作为监督信号，从视频序列中联合学习深度和相机自我运动【29】。

[29] T. Zhou, M. Brown, N. Snavely, and D. G. Lowe, “Unsupervised Learning of Depth and Ego-Motion from Video,” in IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

如图4(b)所示，一个典型的无监督VO解决方案由一个用于预测深度图的深度网络和一个用于在图像之间产生运动变换的位姿网络组成。整个框架以连续图像为输入，监督信号基于新颖的视图合成——给定一个源图像Is，视图合成任务是生成合成的目标图像It。源图像Is(ps)的像素通过以下方式投影到目标视图It(pt)上：

其中K是相机的固有矩阵，Tt→s表示从目标帧到源帧的相机运动矩阵，Dt(pt)表示目标帧中的每像素深度图。训练目标是通过优化真实目标图像和合成图像之间的光度重建损失来确保场景几何的一致性：

其中p表示像素坐标，It是目标图像，^Is是从源图像Is生成的合成目标图像。

然而，在原始工作[29]中基本上有两个主要问题仍未解决：1）这种基于单目图像的方法无法在一致的全局范围内提供姿势估计。由于尺度的模糊性，无法重建具有物理意义的全局轨迹，从而限制了它的实际使用。2）光度损失假设场景是静态的并且没有相机遮挡。尽管作者提出使用可解释性掩码来消除场景动态，但这些环境因素的影响仍未完全解决，这违反了假设。为了解决这些问题，越来越多的作品[53]、[55]、[56]、[58]、[59]、[61]、[64]、[76]、[77]将此无监督框架扩展到达到更好的性能。

[58] N. Yang, R. Wang, J. Stuckler, and D. Cremers, “Deep virtual stereo odometry: Leveraging deep depth prediction for monocular direct sparse odometry,” in Proceedings of the European Conference on Computer Vision (ECCV), pp. 817–833, 2018.

[64] Y. Li, Y. Ushiku, and T. Harada, “Pose graph optimization for unsupervised monocular visual odometry,” in 2019 International Conference on Robotics and Automation (ICRA), pp. 5439–5445, IEEE, 2019.

[76] S. Li, F. Xue, X. Wang, Z. Yan, and H. Zha, “Sequential adversarial learning for self-supervised deep visual odometry,” in Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 2851–2860, 2019.

[77] L. Sheng, D. Xu, W. Ouyang, and X. Wang, “Unsupervised collaborative learning of keyframe detection and visual odometry towards monocular deep slam,” in Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 4302–4311, 2019.

为了解决全局尺度问题，[53]、[56]提出利用立体图像对来恢复姿态估计的绝对尺度。他们在左右图像对之间引入了额外的空间光度损失，因为立体基线（即左右图像之间的运动变换）是固定的并且在整个数据集中都是已知的。训练完成后，网络仅使用单目图像生成姿势预测。因此，尽管它在无法访问地面实况的情况下是无监督的，但训练数据集（立体）与测试集（单声道）不同。【30】通过引入几何一致性损失来解决尺度问题，该损失强制预测深度图和重建深度图之间的一致性。该框架将预测的深度图转换为3D空间，并将它们投影回去以生成重建的深度图。这样做，深度预测能够在连续帧上保持尺度一致，同时使姿态估计保持尺度一致。

[53] R. Li, S. Wang, Z. Long, and D. Gu, “Undeepvo: Monocular visual odometry through unsupervised deep learning,” in 2018 IEEE international conference on robotics and automation (ICRA), pp. 7286– 7291, IEEE, 2018.

[56] H. Zhan, R. Garg, C. S. Weerasekera, K. Li, H. Agarwal, and I. Reid, “Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction,” in IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 340–349, 2018.

[30] J. Bian, Z. Li, N. Wang, H. Zhan, C. Shen, M.-M. Cheng, and I. Reid, “Unsupervised scale-consistent depth and ego-motion learning from monocular video,” in Advances in Neural Information Processing Systems, pp. 35–45, 2019.

光度一致性约束假设整个场景仅由刚性静态结构组成，例如建筑物和车道。然而，在实际应用中，环境动态（例如行人和车辆）会扭曲光度投影并降低姿态估计的准确性。为了解决这个问题，GeoNet[55]通过刚性结构重建器和非刚性运动定位器分别估计静态场景结构和运动动力学，将其学习过程分为两个子任务。此外，GeoNet强制几何一致性损失以减轻由相机遮挡和非朗伯曲面引起的问题。【59】添加了一个2D流生成器和一个深度网络来生成3D流。得益于对环境更好的3D理解，他们的框架能够生成更准确的相机姿势以及点云图。GANVO【61】采用生成对抗学习范式进行深度生成，并引入了用于姿势回归的时间循环模块。李等人【76】还利用生成对抗网络（GAN）来生成更逼真的深度图和姿势，并进一步鼓励目标帧中更准确的合成图像。代替手工制作的度量，采用鉴别器来评估合成图像生成的质量。这样做，生成对抗设置有助于生成的深度图更加丰富和清晰。通过这种方式，可以准确地捕获高级场景感知和表示，并隐含地容忍环境动态。

[55] Z. Yin and J. Shi, “GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose,” in IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

[59] C. Zhao, L. Sun, P. Purkait, T. Duckett, and R. Stolkin, “Learning monocular visual odometry with dense 3d mapping from dense 3d flow,” in 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 6864–6871, IEEE, 2018.

[61] Y. Almalioglu, M. R. U. Saputra, P. P. de Gusmao, A. Markham, and N. Trigoni, “Ganvo: Unsupervised deep monocular visual odometry and depth estimation with generative adversarial networks,” in 2019 International Conference on Robotics and Automation (ICRA), pp. 5474–5480, IEEE, 2019.

尽管无监督VO在性能上仍然无法与有监督VO竞争，如图5所示，但其对尺度度量和场景动态问题的担忧已在很大程度上得到解决。凭借自监督学习的优势和不断提高的性能，无监督VO将成为提供姿势信息的有前途的解决方案，并与空间机器智能系统中的其他模块紧密耦合。

3.1.3 混合模式VO

与仅依靠深度神经网络从数据中解释姿态的端到端VO不同，混合VO将经典几何模型与深度学习框架相结合。基于成熟的几何理论，他们使用深度神经网络来表达地替换几何模型的一部分。

一种直接的方法是将学习到的深度估计合并到传统的视觉里程计算法中，以恢复姿势的绝对尺度度量[52]。学习深度估计是计算机视觉社区中一个经过充分研究的领域。例如，[78]、[79]、[80]、[81]通过采用经过训练的深度神经模型，在全局范围内提供每像素深度。因此，传统VO的所谓规模问题得到了缓解。巴恩斯等人[54]在VO系统中利用预测的深度图和临时掩码（即移动物体的区域）来提高其对移动物体的鲁棒性。詹等人[67]将学习到的深度和光流预测集成到传统的视觉里程计模型中，实现了与其他基线相比具有竞争力的性能。其他作品将物理运动模型与深度神经网络相结合，例如通过可微卡尔曼滤波器[82]和粒子滤波器[83]。物理模型在学习过程中充当算法先验。此外，D3VO[25]将深度、姿势和不确定性的深度预测结合到直接视觉里程计中。

[25] N. Yang, L. von Stumberg, R. Wang, and D. Cremers, “D3vo: Deep depth, deep pose and deep uncertainty for monocular visual odometry,” CVPR, 2020.

[52] X. Yin, X. Wang, X. Du, and Q. Chen, “Scale recovery for monocular visual odometry using depth estimated with deep convolutional neural fields,” in Proceedings of the IEEE International Conference on Computer Vision, pp. 5870–5878, 2017.

[54] D. Barnes, W. Maddern, G. Pascoe, and I. Posner, “Driven to distraction: Self-supervised distractor learning for robust monocular visual odometry in urban environments,” in 2018 IEEE International Conference on Robotics and Automation (ICRA), pp. 1894–1900, IEEE, 2018.

[67] H. Zhan, C. S. Weerasekera, J. Bian, and I. Reid, “Visual odometry revisited: What should be learnt?,” The International Conference on Robotics and Automation (ICRA), 2020.

[78] D. Eigen, C. Puhrsch, and R. Fergus, “Depth map prediction from a single image using a multi-scale deep network,” in Advances in neural information processing systems, pp. 2366–2374, 2014.

[79] B. Ummenhofer, H. Zhou, J. Uhrig, N. Mayer, E. Ilg, A. Dosovitskiy, and T. Brox, “Demon: Depth and motion network for learning monocular stereo,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5038–5047, 2017.

[80] R. Garg, V. K. BG, G. Carneiro, and I. Reid, “Unsupervised cnn for single view depth estimation: Geometry to the rescue,” in European Conference on Computer Vision, pp. 740–756, Springer, 2016.

[81] C. Godard, O. Mac Aodha, and G. J. Brostow, “Unsupervised monocular depth estimation with left-right consistency,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 270–279, 2017.

[82] T. Haarnoja, A. Ajay, S. Levine, and P. Abbeel, “Backprop KF: Learning Discriminative Deterministic State Estimators,” in Advances In Neural Information Processing Systems (NeurIPS), 2016.

[83] R. Jonschkowski, D. Rastogi, and O. Brock, “Differentiable Particle Filters: End-to-End Learning with Algorithmic Priors,” in Robotics: Science and Systems, 2018.

结合几何理论和深度学习的优势，混合模型在这个阶段通常比端到端VO更准确，如表1所示。值得注意的是，混合模型甚至优于最先进的模型常规单目VO或视觉惯性里程计(VIO)系统在常见基准上，例如D3VO【25】击败了几个流行的常规VO/VIO系统，例如DSO[84]、ORB-SLAM[21]、VINS-Mono[15]这表明该领域的进展速度很快。

[84] L. Von Stumberg, V. Usenko, and D. Cremers, “Direct sparse visual-inertial odometry using dynamic marginalization,” in 2018 IEEE International Conference on Robotics and Automation (ICRA), pp. 2510–2517, IEEE, 2018.

3.2 视觉-惯性里程计

将视觉和惯性数据集成为视觉惯性里程计(VIO)是移动机器人技术中一个明确定义的问题。相机和惯性传感器都相对低成本、高能效且部署广泛。这两个传感器是互补的：单目相机捕捉3D场景的外观和结构，但它们的尺度不明确，并且对具有挑战性的场景不鲁棒，例如：强烈的光照变化、缺乏质感和高速运动；相比之下，IMU完全以自我为中心，独立于场景，还可以提供绝对的度量尺度。然而，缺点是惯性测量，尤其是来自低成本设备的测量，受到过程噪声和偏差的困扰。来自这两个互补传感器的测量值的有效融合对于准确的姿态估计至关重要。因此，根据他们的信息融合方法，传统的基于模型的视觉惯性方法大致分为三个不同的类别：滤波方法[12]、固定滞后平滑器[13]和完全平滑方法[14]。

[12] M. Li and A. I. Mourikis, “High-precision, Consistent EKF-based Visual-Inertial Odometry,” The International Journal of Robotics Research, vol. 32, no. 6, pp. 690–711, 2013.

[13] S. Leutenegger, S. Lynen, M. Bosse, R. Siegwart, and P. Furgale, “Keyframe-Based VisualInertial Odometry Using Nonlinear Optimization,” The International Journal of Robotics Research, vol. 34, no. 3, pp. 314–334, 2015.

[14] C. Forster, L. Carlone, F. Dellaert, and D. Scaramuzza, “OnManifold Preintegration for Real-Time Visual-Inertial Odometry,” IEEE Transactions on Robotics, vol. 33, no. 1, pp. 1–21, 2017.

数据驱动的方法已经出现，可以考虑直接从视觉和惯性测量中学习6自由度姿势，而无需人工干预或校准。VINet[68]是第一个将视觉惯性里程计定义为顺序学习问题的工作，并提出了一种深度神经网络框架以端到端的方式实现VIO。VINet使用基于ConvNet的视觉编码器从两个连续的RGB图像中提取视觉特征，并使用惯性编码器从具有长短期记忆(LSTM)网络的IMU数据序列中提取惯性特征。在这里，LSTM旨在对惯性数据的时间状态演化进行建模。视觉和惯性特征连接在一起，并作为另一个LSTM模块的输入，以预测相对姿势，以系统状态的历史为条件。这种学习方法的优点是对校准和相对时序偏移误差更加稳健。然而，VINet并没有完全解决学习有意义的传感器融合策略的问题。

[68] R. Clark, S. Wang, H. Wen, A. Markham, and N. Trigoni, “VINet : Visual-Inertial Odometry as a Sequence-to-Sequence Learning Problem,” in The AAAI Conference on Artificial Intelligence (AAAI), pp. 3995–4001, 2017.

[69] E. J. Shamwell, K. Lindgren, S. Leung, and W. D. Nothwang, “Unsupervised deep visual-inertial odometry with online error correction for rgb-d imagery,” IEEE transactions on pattern analysis and machine intelligence, 2019.

[70] C. Chen, S. Rosa, Y. Miao, C. X. Lu, W. Wu, A. Markham, and N. Trigoni, “Selective sensor fusion for neural visual-inertial odometry,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 10542–10551, 2019.

[71] L. Han, Y. Lin, G. Du, and S. Lian, “Deepvio: Self-supervised deep learning of monocular visual inertial odometry using 3d geometric constraints,” arXiv preprint arXiv:1906.11435, 2019.

为了解决深度传感器融合问题，Chen等人[70]提出了选择性传感器融合，这是一个有选择地学习视觉惯性姿态估计的上下文相关表示的框架。他们的直觉是，通过充分利用两个传感器的互补行为，应根据外部（即环境）和内部（即设备/传感器）动力学来考虑不同模态特征的重要性。他们的方法优于那些没有融合策略的方法，例如VINet，避免灾难性故障。

与无监督VO类似，视觉惯性里程计也可以使用新颖的视图合成以自我监督的方式解决。VIOLearner[69]从原始惯性数据构造运动变换，并通过第3.1.2节中提到的公式2将源图像转换为具有相机矩阵和深度图的目标图像。此外，在线纠错模块纠正框架的中间错误。通过优化光度损失来恢复网络参数。类似地，DeepVIO[71]将惯性数据和立体图像合并到这个无监督学习框架中，并使用专用损失进行训练，以在全局范围内重建轨迹。

基于学习的VIO无法击败最先进的基于经典模型的VIO，但它们通常更能应对实际问题[68]、[70]、[71]，例如测量噪声、时间同步不良，这要归功于DNN在特征提取和运动建模方面令人印象深刻的能力。

3.3 惯性里程计

除了视觉里程计和视觉惯性里程计，仅惯性解决方案，即惯性里程计提供了解决里程计估计问题的普遍替代方案。与视觉方法相比，惯性传感器成本相对较低、体积小、节能且保护隐私。它相对不受环境因素的影响，例如照明条件或移动物体。然而，广泛存在于机器人和移动设备上的低成本MEMS惯性测量单元(IMU)会因高传感器偏差和噪声而损坏，如果对惯性数据进行双重集成，则会导致捷联惯性导航系统(SINS)中的无界误差漂移。

陈等人[85]将惯性里程计公式化为一个顺序学习问题，其关键观察是极坐标（即极向量）中的二维运动位移可以从分段惯性数据的独立窗口中学习。关键观察结果是，在跟踪人类和轮式配置时，它们的振动频率与移动速度有关，这通过惯性测量得到反映。基于此，他们提出了IONet，这是一个基于LSTM的框架，用于从惯性测量序列中端到端学习相对姿势。轨迹是通过整合运动位移生成的。[86]利用深度生成模型和领域适应技术来提高深度惯性里程计在新领域的泛化能力。[87]通过改进的三通道LSTM网络扩展了该框架，以根据惯性数据和采样时间预测无人机定位的极坐标。RIDI[88]训练深度神经网络从惯性数据中回归线速度，校准收集的加速度以满足学习速度的约束，并使用传统物理模型将加速度双重整合到位置。类似地，[89]借助学习速度补偿了经典SINS模型的误差漂移。其他工作也探索了使用深度学习来检测导航行人[90]和车辆[91]的零速度阶段。这个零速度阶段通过卡尔曼滤波提供上下文信息来纠正系统误差漂移。

[85] C. Chen, X. Lu, A. Markham, and N. Trigoni, “Ionet: Learning to cure the curse of drift in inertial odometry,” in Thirty-Second AAAI Conference on Artificial Intelligence, 2018.

[86] C. Chen, Y. Miao, C. X. Lu, L. Xie, P. Blunsom, A. Markham, and N. Trigoni, “Motiontransformer: Transferring neural inertial tracking between domains,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 8009–8016, 2019.

[87] M. A. Esfahani, H. Wang, K. Wu, and S. Yuan, “Aboldeepio: A novel deep inertial odometry network for autonomous vehicles,” IEEE Transactions on Intelligent Transportation Systems, 2019.

[88] H. Yan, Q. Shan, and Y. Furukawa, “Ridi: Robust imu double integration,” in Proceedings of the European Conference on Computer Vision (ECCV), pp. 621–636, 2018. [89] S. Cortes, A. Solin, and J. Kannala, “Deep learning based speed ´ estimation for constraining strapdown inertial navigation on smartphones,” in 2018 IEEE 28th International Workshop on Machine Learning for Signal Processing (MLSP), pp. 1–6, IEEE, 2018.

[90] B. Wagstaff and J. Kelly, “Lstm-based zero-velocity detection for robust inertial navigation,” in 2018 International Conference on Indoor Positioning and Indoor Navigation (IPIN), pp. 1–8, IEEE, 2018.

[91] M. Brossard, A. Barrau, and S. Bonnabel, “Rins-w: Robust inertial navigation system on wheels,” 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2019.

仅惯性解决方案可以是在视觉信息不可用或高度失真的极端环境中提供姿势信息的备用计划。深度学习已经证明了它能够从嘈杂的IMU数据中学习有用的特征，并补偿传统算法难以解决的惯性航位推算的误差漂移。

3.4 激光里程计

激光雷达传感器提供高频范围测量，具有在复杂照明条件和光学无特征场景中始终如一地工作的优势。移动机器人和自动驾驶车辆通常配备LIDAR传感器以获得相对自运动（即LIDAR 里程计）和相对于3D地图的全局位姿（LIDAR重定位）。LIDAR里程计的性能对由于非平滑运动引起的点云配准误差很敏感。此外，激光雷达测量的数据质量还受到极端天气条件的影响，例如大雨或雾/薄雾。

传统上，LIDAR里程计依赖于点云配准来检测特征点，例如线段和曲面段，并使用匹配算法通过最小化两个连续点云扫描之间的距离来获得位姿变换。数据驱动的方法考虑以端到端的方式解决LIDAR里程计，通过利用深度神经网络构建从点云扫描序列到姿态估计的映射函数[72]、[73]、[74]。由于点云数据由于其稀疏和不规则的采样格式而难以直接被神经网络摄取，这些方法通常通过圆柱投影将点云转换为规则矩阵，并采用ConvNets从连续的点云扫描中提取特征。这些网络回归相对姿势，并通过真实标签进行训练。LO-Net[73]报告了与传统的最先进算法（即LIDAR里程计和建图（LOAM）算法[16]）相比具有竞争力的性能。

[72] M. Velas, M. Spanel, M. Hradis, and A. Herout, “Cnn for imu assisted odometry estimation using velodyne lidar,” in 2018 IEEE International Conference on Autonomous Robot Systems and Competitions (ICARSC), pp. 71–77, IEEE, 2018.

[73] Q. Li, S. Chen, C. Wang, X. Li, C. Wen, M. Cheng, and J. Li, “Lonet: Deep real-time lidar odometry,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 8473–8482, 2019.

[74] W. Wang, M. R. U. Saputra, P. Zhao, P. Gusmao, B. Yang, C. Chen, A. Markham, and N. Trigoni, “Deeppco: End-to-end point cloud odometry through deep parallel neural network,” The 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019), 2019.

3.5 里程计估计对比

表1比较了现有的里程计估计工作，包括传感器类型、模型、是否产生具有绝对比例的轨迹，以及它们在KITTI数据集上的性能评估（如果可用）。由于尚未在KITTI数据集上评估深度惯性里程计，因此我们在此表中不包括惯性里程计。KITTI数据集【46】是里程估计的通用基准，由来自汽车驾驶场景的传感器数据集合组成。由于大多数数据驱动方法采用KITTI数据集的轨迹09和10来评估模型性能，我们根据所有长度子序列（100、200、. ., 800)米，由官方KITTI VO/SLAM评估指标提供。

我们以视觉里程计为例。图5报告了深度视觉里程计模型在KITTI数据集的第10条轨迹上随时间推移的平移漂移。显然，混合VO表现出优于有监督VO和无监督 VO 的性能，因为混合模型受益于传统VO算法成熟的几何模型和深度学习的强大特征提取能力。尽管有监督的VO仍然优于无监督的VO，但随着无监督VO的局限性逐渐得到解决，它们之间的性能差距正在缩小。例如，已经发现无监督VO现在可以从单目图像中恢复全局尺度[30]。总体而言，数据驱动的视觉里程计显示模型性能显着提高，表明深度学习方法在未来实现更准确的里程计估计方面的潜力。

四、建图

建图是指移动代理建立一致的环境模型来描述周围场景的能力。深度学习培育了一套用于场景感知和理解的工具，其应用范围从深度预测到语义标注，再到3D几何重建。本节概述了与基于深度学习的建图方法相关的现有工作。我们将它们分为几何建图、语义建图和一般建图。表2总结了基于深度学习的建图的现有方法。

4.1 几何建图

广义地说，几何建图捕捉场景的形状和结构描述。几何建图中使用的场景表示的典型选择包括深度、体素、点和网格。我们遵循这种代表性分类法，并将用于几何建图的深度学习分类为上述四类。图6在Stanford Bunny 基准上展示了这些几何表示。

4.1.1 深度表示

深度图在理解场景几何和结构方面起着关键作用。通过融合深度和RGB图像[119]、[120]实现了密集场景重建。传统的SLAM系统表示具有密集深度图（即2.5D）的场景几何，例如DTAM[121]。此外，准确的深度估计有助于视觉SLAM的绝对尺度恢复。

[119] C. Kerl, J. Sturm, and D. Cremers, “Dense visual slam for rgb-d cameras,” in 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 2100–2106, IEEE, 2013.

[120] T. Whelan, M. Kaess, H. Johannsson, M. Fallon, J. J. Leonard, and J. McDonald, “Real-time large-scale dense rgb-d slam with volumetric fusion,” The International Journal of Robotics Research, vol. 34, no. 4-5, pp. 598–626, 2015.

[121] R. A. Newcombe, S. J. Lovegrove, and A. J. Davison, “DTAM : Dense Tracking and Mapping in Real-Time,” in IEEE International Conference on Computer Vision (ICCV), pp. 2320–2327, 2011.

从原始图像中学习深度是计算机视觉社区中一个快速发展的领域。最早的工作将深度估计公式化为输入单个图像的映射函数，由多尺度深度神经网络[78]构建，以输出单个图像的每像素深度图。通过联合优化深度和自运动估计来实现更准确的深度预测[79]。这些监督学习方法[78]、[79]、[92]可以通过在具有相应深度标签的大型图像数据集合上训练深度神经网络来预测每像素深度。尽管发现它们的性能优于传统的基于结构的方法，例如[122]，但它们的有效性在很大程度上依赖于模型训练，并且在没有标记数据的情况下难以推广到新场景。

另一方面，该领域的最新进展集中在无监督解决方案上，将深度预测重新定义为一个新的视图合成问题。[80]、[81]利用光度一致性损失作为训练神经模型的自我监督信号。使用立体图像和已知的相机基线，[80]、[81]从右图像合成左视图，以及左视图的预测深度图。通过最小化合成图像和真实图像之间的距离，即空间一致性，可以通过这种端到端的自我监督来恢复网络的参数。除了空间一致性之外，[29]还提出通过从源时间帧合成目标时间帧中的图像，将时间一致性用作自监督信号。同时，自我运动与深度估计一起被恢复。这个框架只需要单目图像来学习深度图和自我运动。以下许多作品[53]、[55]、[56]、[58]、[59]、[61]、[64]、[76]、[77]、[93]扩展了这个框架并取得了更好的效果深度估计和自我运动估计的性能。我们请读者参考第3.1.2节，其中讨论了各种附加约束。

[80] R. Garg, V. K. BG, G. Carneiro, and I. Reid, “Unsupervised cnn for single view depth estimation: Geometry to the rescue,” in European Conference on Computer Vision, pp. 740–756, Springer, 2016.

[81] C. Godard, O. Mac Aodha, and G. J. Brostow, “Unsupervised monocular depth estimation with left-right consistency,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 270–279, 2017.

借助ConvNets预测的深度图，基于学习的SLAM系统可以整合深度信息来解决经典单目解决方案的一些局限性。例如，CNN-SLAM[123]利用从单个图像中学习到的深度进入单目SLAM框架（即LSD-SLAM[124]）。他们的实验展示了学习的深度图如何有助于缓解姿态估计和场景重建中的绝对尺度恢复问题。CNN-SLAM即使在无纹理区域也能实现密集场景预测，这对于传统的SLAM系统来说通常是困难的。

4.1.2 体素表示

基于体素的公式是表示3D几何的自然方式。类似于图像中像素（即二维元素）的使用，体素是三维空间中的体积元素。以前的工作已经探索了使用多个输入视图来重建场景[94]、[95]和对象[96]的体积表示。例如，SurfaceNet[94]学习预测体素的置信度以确定它是否在表面上，并重建场景的2D表面。RayNet[95]通过在施加几何约束的同时提取视图不变特征来重构场景几何。最近的工作重点是生成高分辨率3D体积模型[97]、[98]。例如，塔塔尔琴科等人[97]设计了一个基于八叉树公式的卷积解码器，以实现更高分辨率的场景重建。可以从RGB-D数据[99]、[100]中找到关于场景完成的其他工作。体素表示的一个限制是高计算要求，尤其是在尝试以高分辨率重建场景时。

[97] M. Tatarchenko, A. Dosovitskiy, and T. Brox, “Octree generating networks: Efficient convolutional architectures for high-resolution 3d outputs,” in Proceedings of the IEEE International Conference on Computer Vision, pp. 2088–2096, 2017.

[98] C. Hane, S. Tulsiani, and J. Malik, “Hierarchical surface prediction ¨ for 3d object reconstruction,” in 2017 International Conference on 3D Vision (3DV), pp. 412–420, IEEE, 2017.

4.1.3 点云表示

基于点的公式由3D空间中点的3维坐标(x,y,z)组成。点表示易于理解和操作，但存在歧义问题，这意味着不同形式的点云可以表示相同的几何图形。开创性的工作，PointNet[125]，使用单个对称函数-最大池化处理无序点数据，以聚合点特征以进行分类和分割。范等人[101]开发了一种深度生成模型，可以从单个图像以基于点的公式生成3D几何。在他们的工作中，引入了基于Earth Mover距离的损失函数来解决数据模糊问题。然而，他们的方法仅在单个对象的重建任务上得到验证。尚未发现用于场景重建的点生成工作。

4.1.4 网格表示

基于网格的公式对3D模型的底层结构进行编码，例如边、顶点和面。

标签：传感器材料知多少 fly传感器 8fu传感器传感器传感器1004 单点式传感器sp22 传感器1130

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

SLAM综述阅读笔记四：A Survey on Deep Learning for Localization and Mapping: Towards the Age of ...

摘要

一、引言

1.1 为什么学习基于深度学习的定位与建图

1.2 与其他综述对比

1.3 综述结构

二、现有方法分类

2.1 里程计估计

2.2 地图构建

2.3全局定位

2.4同步定位和建图

三、里程计估计

3.1 视觉里程计

3.1.1 有监督VO学习（端到端VO）

3.1.2 无监督的VO学习

3.1.3 混合模式VO

3.2 视觉-惯性里程计

3.3 惯性里程计

3.4 激光里程计

3.5 里程计估计对比

四、建图

4.1 几何建图

4.1.1 深度表示

4.1.2 体素表示

4.1.3 点云表示

4.1.4 网格表示

亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

SLAM综述阅读笔记四：A Survey on Deep Learning for Localization and Mapping: Towards the Age of ...

摘要

一、引言

1.1 为什么学习基于深度学习的定位与建图

1.2 与其他综述对比

1.3 综述结构

二、现有方法分类

2.1 里程计估计

2.2 地图构建

2.3全局定位

2.4同步定位和建图

三、里程计估计

3.1 视觉里程计

3.1.1 有监督VO学习（端到端VO）

3.1.2 无监督的VO学习

3.1.3 混合模式VO

3.2 视觉-惯性里程计

3.3 惯性里程计

3.4 激光里程计

3.5 里程计估计对比

四、建图

4.1 几何建图

4.1.1 深度表示

4.1.2 体素表示

4.1.3 点云表示

4.1.4 网格表示

亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录