自动驾驶多模态传感器融合的综述-锐单电子商城

作者丨黄浴@知乎

来源丨https://zhuanlan.zhihu.com/p/470588787

编辑丨3D视觉工坊

arXiv2022年2月6日上传的综述论文"Multi-modal Sensor Fusion for Auto Driving Perception: A Survey"，作者来自加州洛杉矶分校AI实验室（pjlab）、北京理工（BIT？）和华东师范。

多模态集成是感知自动驾驶系统的基本任务，最近引起了许多研究人员的兴趣。然而，由于原始数据噪声大、信息利用率低、多模态传感器不对齐，不容易达到相当好的性能。本文综述了基于多模态自动驾驶感知任务的现有方法。50多篇论文，包括摄像头和激光雷达，试图解决目标检测和语义分割任务。与传统的融合模型分类方法不同，作者从融合阶段的角度将融合模型分为两类和四类。此外，研究了当前的整合方法，并讨论了潜在的研究机会。

近年来，用于自动驾驶感知任务的多模态集成方法发展迅速，从跨模态特征表达和更可靠的模态传感器到更复杂、更稳定的多模态集成深度学习模型和技术。然而，只有少数文献综述集中在多模态集成方法本身的方法上，大多数文献遵循传统规则，分为前集成、深度（特征）集成和后集成三类，重点关注深度学习模型的集成特征阶段，无论是数据级、特征级还是提案级。首先，这种分类方法没有明确定义每个级别的特征。其次，它表明激光雷达和摄像头在处理过程中总是对称的，模糊了激光雷达分支和摄像头分支的数据级特征。综上所述，传统的分类方法可能是直观的，但落后于总结最近越来越多的多模态集成方法，使研究人员无法从系统的角度进行研究和分析。

如图所示：

深度学习模型仅限于输入的表示。为了实现该模型，原始数据需要通过复杂的特征提取器进行预处理。

至于图像分支，大多数现有方法保持与下游模块输入的原始数据相同的格式。然而，激光雷达分支高度依赖于数据格式，强调不同的特性，对下游模型设计有很大的影响。因此，它总结为基于点、基于元素和基于二维映射的点云数据格式，以适应异构深度学习模型。

数据级集成或前集成方法通过空间对齐直接集成不同模式的原始传感器数据。特征级集成或深度集成方法通过级联或元素乘以在特征空间中混合跨模态数据。目标级集成方法结合各模型的预测结果，做出最终决策。

一种新的分类方法将所有合和弱融合，如图所示：

性能比较，KITTI benchmark的3D鸟瞰目标检测和检测。给出以下两个表。BEV和3D的KITTI测试数据集上多模态融合方法的实验结果。

根据激光雷达和摄像头数据的不同组合阶段，强集成分为四类：前集成、深集成、后集成和不对称集成。强集成作为近年来研究最多的集成方法，取得了许多突出的成就。

如图所示：强融合的每一类都高度依赖于激光雷达点云，而不是摄像头数据。

前融合。数据级集成是一种通过原始数据级空间对齐和投影直接集成每个模态数据的方法。不同之处在于，前集成在数据级集成激光雷达数据，摄像头数据集成在数据级或特征级。如图所示：

在激光雷达分支中，点云可以是反射图、体素张、前视图/距离视图/鸟瞰图和伪点云。虽然所有这些数据都有不同的内部特征，与激光雷达的主干网络高度相关，但除了伪点云，大多数数据都是基于规则处理生成的。此外，与特征空间嵌入相比，现阶段的数据仍然可以解释，因此所有这些激光雷达数据都是直观的。

对于图像分支，严格的数据级定义应该只包括RGB或灰度和其他数据，缺乏通用性和合理性。与传统的前整合定义相比，摄像头数据被放松为数据级和特征级数据。特别是，由于这些目标级特征不同于整个任务的最终目标级提议，有利于三维目标检测的图像语义分割任务结果作为特征级表示。

深度融合。激光雷达分支的特征级深度融合方法是跨模态数据融合，但图像分支的数据级和特征级融合。例如，一些方法使用特征提取器获取激光雷达点云和相机图像的嵌入表示，并通过一系列下游模块将特征集成到两种模式中。然而，与其他强融合方法不同，深度融合有时以级联的形式融合特征。这两种方法都使用原始和先进的语义信息。如图所示：

后融合。后融合，又称目标级融合，是指在每个模式下整合流水线结果的方法。例如，激光雷达点云分支和激光雷达点云分支和摄像头图像分支的输出，并根据两种模式的结果进行最终预测。请注意，两个分支提出的数据格式应与最终结果相同，但质量、数量和精度不同。后融合是多模态信息优化最终提出的集成方法（ensemble method）。如图所示：

非对称融合。除了早期集成、深度集成和后集成外，一些方法还以不同的权限处理跨模态分支，因此将目标级信息和其他分支的数据级或特征级信息集成为不对称集成。其他强融合方法将两个分支视为相等状态，至少有一个分支在非对称融合中占主导地位，而其他分支则提供辅助信息执行最终任务。如图所示，这是一个非对称融合的例子：它可能具有相同的提取特征，但非对称融合只来自一个分支，然后来自所有分支。

与强集成不同，弱集成方法不会以多种方式直接从分支集成数据/特征/目标，而是以其他方式操作数据。基于弱集成的方法通常使用基于规则的方法使用一个模态数据作为监督信号来指导另一个模态的交互。如图所示，弱集成模式的基本框架：

图像分支有可能CNN的2D提议导致原激光雷达点云截锥（frustum）。然而，与图像特征组合的不对称融合不同，弱融合直接将选定的原始激光雷达点云输入激光雷达主干网，以输出最终提案。

有些工作不能简单地定义为上述任何类型的集成。在整个模型框架中采用各种集成方法，如深度集成和后集成，以及前集成和深度集成。从模型设计的角度来看，这些方法是冗余的，而不是集成模块的主流。

对待解决的问题有一些分析。

当前的集成模型面临着错对齐和信息丢失的问题。此外，平融合（flat fusion）操作也阻止了感知任务性能的进一步提高。

·错对齐和信息丢失：传统的前融合和深度融合方法直接将所有激光雷达点投射到相应的像素中，反之亦然。然而，由于传感器噪声，这种逐像素对齐不够准确。因此，周围的信息可以作为补充，产生更好的性能。此外，在输入和特征空间转换过程中，还存在其他信息损失。通常，降维操作的投影不可避免地会导致大量信息丢失，例如，3-D激光雷达点云映射2-DBEV图像。将两个模态数据映射到另一个专门为集成设计的高维表示，可以有效利用原始数据，减少信息损失。

·更合理的集成操作：级联和元素乘以这些简单的操作可能无法集成分布差异较大的数据，也难以弥合两种模式之间的语义差距。一些工作试图使用更复杂的级联结构来集成数据并提高性能。

·前视图单帧图像是自动驾驶感知任务的典型场景。然而，大多数框架使用有限的信息，没有详细的辅助任务来进一步了解驾驶场景。

·采用更多的潜在信息：现有方法缺乏对多维度和来源信息的有效利用。大部分集中在前视图的单帧多模态数据上。其他有意义的信息包括语义、空间和场景的上下文信息。一些模型试图用图像语义分割任务结果作为附加特征，而其他模型可能使用神经网络主干中间层的特征。在自动驾驶场景中，许多语义信息清晰的下游任务可能会大大提高目标检测任务的性能。比如车道检测，语义分割。因此，未来的研究可以通过各种下游任务（如检测车道、交通灯和标志）共同构建一个完整的城市场景的认知框架，帮助感知任务的表现。此外，当前的感知任务主要依赖于忽略时间信息的单一框架。最近，激光雷达的方法结合了帧序列来提高性能。与单帧方法相比，时间序列信息包含序列化监控信号，可以提供更稳定的结果。

·表征学习的自我监督：相互监督的信号自然存在于跨模态数据中，从相同的现实世界场景但不同的角度采样。然而，由于对数据缺乏深入的了解，无法挖掘出各种模式之间的协同关系。未来的研究可以集中在如何利用多模态数据进行自我监督学习，包括预训练、微调或比较学习。集成模型将通过实施这些最先进的机制，加深对数据的理解，取得更好的效果。

域偏差和数据分辨率与真实场景和传感器高度相关。这些缺陷阻碍了自动驾驶深度学习模型的大规模培训和实施。

·域偏差：不同传感器提取的原始数据伴随着自主驾驶感知场景中域相关特征。由于机械激光雷达和固态激光雷达，不同的摄像头系统具有光学特性。更重要的是，数据本身可能有域偏差，如天气、季节或地理位置。因此，检测模型无法顺利适应新场景。这些缺陷阻碍了大规模数据集的收集和原始训练数据的可重用性。

·分辨率冲突：来自不同模式的传感器通常具有不同的分辨率。例如，激光雷达的空域密度明显低于图像的空域密度。无论采用何种投影方法，一些信息都被消除，因为无法找到相应的关系。这可能导致模型由特定模式的数据主导，无论是特征向量的不同分辨率还是原始信息的不平衡。

本文仅进行学术分享。如有侵权行为，请联系删除。

3D推荐视觉精品课程：

1.自动驾驶领域的多传感器数据集成技术

2.自动驾驶域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

资讯详情

自动驾驶多模态传感器融合的综述

详细介绍电流互感器功能区别3CT SR ZCT

自动驾驶多模态传感器融合的综述

详细介绍电流互感器功能区别3CT SR ZCT

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录