作者花椒壳@知乎
来源丨https://zhuanlan.zhihu.com/p/485587275
编辑丨3D视觉工坊
:DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
:约翰霍普金斯大学,谷歌
https://arxiv.org/abs/2203.08195v1
https://github.com/tensorflow/lingvo/tree/master/lingvo
目前,多模态方法只是简单地装饰原始激光雷达点云(图像特征提取到相应的原始点云),并直接输入现有的3D但我们的研究表明,将相机特性与深激光雷达特性相结合,而不是原始点,可以获得更好的性能。在整合特征时,应考虑特征对齐的问题,以及多模态中常见的数据增加问题。分别提出了LearnableAlign和InverseAug在解决特征集成时,对齐(权重)和数据增加后的物理对齐。

如上图所示,PointPainting使用训练有素的探测器或分割模型作为工作Img的特征提取器。比如PointPainting采用的Deeplabv3 ,生成逐像素分割标签作为相机特性。然后,利用提取的相机特性来装饰原始的激光雷达点。最后,将激光雷达点输入三维点云目标检测框架。
由于以下原因,可以改进上述结构。首先,将相机的特性输入到处理点云数据的几个模块中。例如,如果采用PointPillars作为3D对于检测框架,需要将相机特性与原点云一起进行体素化,构建鸟瞰伪图像。然而,体素化模块并不是为处理相机信息而设计的。其次,相机特征提取器从其他独立任务(如二维检测或分割)中学习,可能导致(1)域间隙,(2)标记工作,(3)额外计算成本,更重要的是,(4)次优特征提取,因为特征是启发性选择,而不是端到端学习。
为了解决上述两个问题,我们提出了深度特征集成管道。为了解决第一个问题,我们整合了相机和激光雷达的更深层次特征,而不是在输入级装饰原始激光雷达点,使相机信号不会通过为点云设计的模块。对于第二个问题,我们使用卷积层提取相机特性,并将这些卷积层与网络的其他组件端到端进行训练。综上所述,我们提出的深度特征集成管道如下图所示。
激光雷达点云输入现有激光雷达特征提取器(例如,Pillar Feature Net from PointPillars)来自激光雷达的特征(例如PointPillars[16]的pseudo image);将相机图像发送到2D图像特征提取器(如ResNet)然后,将相机特性与激光雷达特性相结合;最后,将所选激光雷达检测框架的剩余重量(如Pointpillars中的Backbone和detection Head)综合特征处理,得到检测结果。
与以往的设计相比,我们的方法有两个优点:(1)高分辨率相机功能,上下文信息丰富,不需要错误的体素化,然后从透视图转变为鸟瞰图。(2)通过端到端训练,可以减少域差和标记问题,获得更好的相机特性。然而,它的缺点也很明显:将相机功能与激光雷达信号对齐到深层次特征层面,而不是输入装饰。例如,两种模式的异质数据增强导致的不准确对齐可能会对集成阶段构成潜在的挑战。在1.在第二节中,我们验证了检测模型检测模型确实会损坏.第三节提供了我们的解决方案。
为了定量评估特征对齐对深度特征集成的影响,我们禁止在训练期间增强所有其他数据,但只会RandomRotation量级扭曲到激光雷达点云管道的激光雷达点云。在补充材料中可以找到更多的实验设置细节。增加激光雷达点云,但保持相机图像不变,角度越大,对齐效果越差。如表1所示,随着旋转角度的增加,多模态集成的增加减少。例如,当不应用增强(最大旋转度)时= 0?),改进是最显著的( 2.6 AP);当最大旋转45时,只有观察到 0.4 AP增益。基于这些观察,我们得出结论,对齐是深度特征融合的关键,如果对齐不准确,从相机输入的好处就会变小。
鉴于深度特征对齐的重要性,我们提出了两种技术,InverseAug和LearnableAlign,有效对齐两种模式的深度特征。
为了在现有的基准中获得最佳的性能,大多数方法都需要强大的数据增强,因为训练通常是过拟合场景。从表1可以看出数据增强的重要性,在表1中,通过数据增加,single-modal中精度可提高中精度。此外,Cheng et al.[5]还提出了数据增强对训练增强对训练的重要性。然而,数据增强的必要性给我们的深度集成计划带来了巨大的挑战。具体来说,来自两种模式的数据通常采用不同的增强策略(例如,3D点云沿z轴旋转,而2D图像随机翻转),使对齐具有挑战性。
为了解决几何数据增加引起的对齐问题,我们提出了,如下图所示:
InverseAug
应用于点云数据增加后,给定数据增强后的3d关键点(这可以是任意三维坐标,如激光雷达点、体素中心等),增强相应的相机功能不能位于2d使用原始激光雷达和摄像机参数。仅使用原始激光雷达和相机参数就无法在二维空间中定位相应的相机特性。当应用程序增加与几何相关的数据时,为了使定位可行,InverseAug首先,保存增强参数(如旋转角),并将所有数据反转以获得3D关键点的原始坐标(c),然后在相机空间中找到相应的2D坐标。请注意,我们的方法是通用的,因为它可以对齐不同类型的关键点(如体素中心),尽管为了简单起见,我们只在图2中使用激光雷达点,它还可以处理两种模式的增强。现有的融合方法,如pointaugmentation[36]只能处理增强前的数据。最后,我们在图3中 (b)中展示了InverseAug一个提高对齐质量的例子。
例如,当使用体素法,特征对齐融合时,体素对应像素块,此时如何对齐。一种简单的方法是将所有像素平均对应于给定体素。然而,直观地说,这些像素并不重要,因为来自激光雷达深度特征的信息不平等地针对每个相机像素。例如,一些像素可能包含检测的关键信息,如要检测的目标对象,而另一些可能括道路、植物、屏蔽等背景。
为了更好地匹配来自激光雷达特征的信息,我们介绍了最相关的相机特征,它利用交叉注意机制来动态地捕获两个模式之间的相关性,如图1所示
具体来说,输入包含一个体素及其对应的N个像素特征。LearnableAlign使用三个全连接层将元素转换为查询ql,将相机功能转换为键kc和值vc。然后是通过注意机制,通过softmax算子归一化将注意力矩阵用于包含相机信息的值vc加权和聚合。聚合的相机信息由全连接层处理,最后与原始激光雷达特性连接。输出最终输入任何标准3D检测框架。
:感觉做了很多实验。。。。当我读到这篇论文时,我觉得什么都没有。数据增强的一种方法非常直观,即记住点云是如何变化的。在整合图像特征时,将点云转换为相对图像特征,然后乘以激光雷达和相机外参上的数据增广转换矩阵。自适应特征融合是一种注意力机制的方法。看到实验部分我真的很惊讶,哈哈哈,好扎实!学到了!
本文仅进行学术分享。如有侵权行为,请联系删除。
后台回复:
后台回复:
后台回复:
1.自动驾驶领域的多传感器数据集成技术
2.自动驾驶领域3D点云目标检测全栈学习路线!(单模态 多模态/数据 代码)3.彻底了解视觉三维重建:原理分析、代码解释、优化和改进.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
扫码添加小助手微信,可
一定要备注:
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题