作者,月明星稀风萧萧@知乎
来源丨https://zhuanlan.zhihu.com/p/419187044
编辑丨3D视觉工坊
今天,我将分享一个 ICCV 2021 基于视觉感知的多传感器集成点云语义分割方法《Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation》。
Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation(https://openaccess.thecvf.com/content/ICCV2021/papers/Zhuang_Perception-Aware_Multi-Sensor_Fusion_for_3D_LiDAR_Semantic_Segmentation_ICCV_2021_paper.pdf)
GitHub - ICEORY/PMF: Perception-aware multi-sensor fusion for 3D LiDAR semantic segmentation (ICCV 2021)(https://github.com/ICEORY/PMF)
语义分割是计算机视觉的关键问题之一,可以提供细粒度环境信息。因此,它在机器人和自动驾驶等许多应用中都有极其重要的应用。
根据传感器的类型,目前的语义分割方法可分为三类:基于摄像头、激光雷达和多传感器集成。
基于相机的方法,即使用Deeplab以[1]为代表的2D语义分割法。由于RGB图像拥有丰富的颜色、纹理等表征信息,并且得益于公开数据集的丰富性,基于相机的语义分割方法已经取得了极大的进展。然而,由于相机是一个被动传感器,它很容易被光干扰,所以收集到的数据经常有噪音,这对自动驾驶和其他应用程序非常危险。因此,近年来,越来越多的研究人员关注激光雷达3D提出了语义分割法RangeNet[2]等方法。此外,激光雷达还可以提供空间几何信息,因为它是一种主动传感器。然而,激光雷达收集的数据往往非常稀疏和不规则,缺乏颜色和纹理信息,这使得仅仅基于激光雷达数据进行细粒度的语义分割非常具有挑战性。
因此,一个非常直接的想法是共同完成语义分割任务。
已有基于多传感器数据的语义分割方法,比如RGBAL[3]和PointPainting[4]将点云投影到图像上,获取相关像素信息,然后将相关图像像素投影回点云空间,集成点云空间中的多传感器。然而,这种方法会导致相机传感器中的严重数据损失,如图1左侧所示,投影后的纹理、形状等视觉感知信息严重丢失。

针对上述问题,作者提出了基于透视投影的整合方法,如上图右侧所示,以保留足够的图像信息。
但如上图所示,由于透视投影获得的点云非常稀疏,神经网络只能提取局部点云的特征,很难从稀疏点云中提取物体的视觉感知特征。
为了解决上述问题,作者提出了一种新的多传感器感知集成方案(PMF),有效地整合相机和激光雷达的信息。本文的主要贡献包括以下三点:
一是提出了全新的多传感器感知融合方案(PMF),来自相机和激光雷达的信息可以有效地集成。
第二,提出的多传感器集成方法仍然可以达到理想的语义分割效果,当光线极利(如夜间)和点云极度稀疏时。特别是在视觉对抗样本的情况下,本文的方法仍能达到理想的语义分割效果。
第三,提出了一个新的perception-aware loss,它可以促进网络捕获不同模式的感知信息(RGB激光雷达数据的颜色和纹理)。
在大规模数据集中提出的方法SemanticKITTI、nuScenes和Sensat所有这些都可以达到最高的结果。并通过一系列的消融实验验证了该方法的优点和合理性。
注:感谢微信公众号「」整理。
PMF首先使用透视投影方法(Perspective projection)将激光雷达数据投影到相机坐标中。然后,通过一个双流网络提取多模态数据的特征,通过多个基于残差的集成块提取多模态特征(Residual-based fusion block)融合。最后,通过感知损失函数(Perception-aware loss)引入网络训练,量化两种模式之间的感知差异,帮助网络学习不同模式的感知特征(RGB激光雷达数据的颜色和纹理)。其结构如上图所示,主要包括三个主模块。
考虑到之前的方法通常是将点云投影到图像上,获取相关的像素信息,然后将相关的图像像素投影回到点云空间,并在点云空间上集成多传感器。这导致了严重的信息损失。为了解决这个问题,作者提出了基于透视投影的集成方法,将激光雷达数据投影到相机坐标系下,以保留足够的相机传感器数据。
在已知的校准参数的帮助下,将激光雷达数据投影到图像。对于投影后的每个激光雷达点,使用跟踪backbone方法SalsaNext[5]相同的设计,即保留(d, x, y, z, r)五维特征。d表示深度值。
由于相机数据与激光雷达数据中包含的信息存在显著差异,因此使用双分支网络分别处理不同模式的数据。
考虑到多模态特征的融合,相机的数据可能不可靠。因此,作者设计了它Residual-based整合模式仅以整合特性作为激光雷达特性的补充,激光雷达特性保持不变。此外,为了进一步消除整合特性中噪声信息的干扰,作者还加入了Attention Module,选择性地将融合后的特性添加到激光雷达的特性中。
通过以上设计,最终的融合特征更加可靠。
从预测结果来看,激光雷达分支很难从稀疏点云中捕捉到感知特征,即只有特征被激活。相比之下,相机分支可以从密集的图像数据中学习数据的特征。如上图所示,相机分支在物体内部的特征被激活,特征变化是连续的。
因此,本文提出了一种Perception-aware loss,使网络能够更好地利用上述分支的预测优势,最终达到更好的预测效果。具体设计如下:
为了利用图像分支的特性来提高点云分支的预测效果,首先在等式(1)中定义,然后根据等式(2)进一步计算预测。由于并非所有来自相机分支的信息都是有效的,例如,在物体的边缘,预测信心相对较低,因此通过等式(3)来衡量相机分支。希望不同模式的预测结果应该是,因此,在这里介绍KL散度。最终,通过公式(4)来计算激光雷达分支的Perception-aware Loss。
如公式(4)所述,激光雷达分支包含完整的损失函数Perception-aware Loss、Focal Loss以及Lov′asz softmax Loss。
受Mutual Learning受机制的启发,相机分支损失函数的设计与激光雷达分支相似。
展示在这一部分PMF引入不同激光雷达数据集和不同天气条件下的泛化实验结果进行验证PMF鲁邦在输入对抗攻击样本本。实验结果证明,PMF在各种情况下,它具有良好的泛化性,并能在对抗攻击中保持高鲁棒性。
本方法在评估SemanticKITTI上精度,将PMF与几种最先进的激光雷达语义分割方法法。由于SemanticKITTI只提供前视图摄像头的图像,因此该方法将点云投影到透视图中,只保留图像上的可用点来构建SemanticKITTI的一个子集。为了评估公平性,作者使用其他方法公开的最先进的训练模型来评估前视图数据。
实验结果如上表所示。PMF实现基于投影的最佳性能。PMF在mIoU性能优于中等SalsaNext4.5%。然而,PMF性能比最先进的三维卷积方法,即Cylnder3D[6]相比差1.0%。但是考虑到远距离感知对自动驾驶汽车的安全性也至关重要,因此作者还进行了基于距离的评估。
实验结果证明,当距离大于30米时,PMF的性能超过了Cylinder3D[6],达到最好性能。作者认为,这是由于相机数据可以为远处物体提供了更多的信息,因此基于融合的方法在远距离上优于仅使用激光雷达数据的方法。这也表明基于PMF更适合于解决稀疏激光雷达数据的语义分割任务。
论文也在一个更复杂、也更稀疏的数据集nuScenes上进一步评估了所提出的方法。nuScenes的点云比SemanticKITTI的点云更稀疏(35k点/帧 vs. 125k点/帧)。
实验结果如上表所示。从结果来看,PMF 在 nuScenes 数据集上实现了最佳性能。这些结果与预期一致,即,由于PMF集成了RGB图像,因此能够在更加稀疏的点云条件下依然能达到理想的语义分割效果。
除此之外,如上图所示,PMF方法在夜晚也具有很好的语义分割效果,再一次证明了PMF方法的鲁棒性。更多的可视化结果请查看论文附录。
在投稿之后,此篇文章的方法还参加了SensatUrban ICCV2021竞赛。
注意,因为SensatUrban数据集上数据形式的限制,所以无法使用透视投影,因此采用的是基于鸟瞰图的投影方式来处理数据的。其他关于实施方案的细节见GitHub。
由于真实世界总是存在一些会让汽车迷惑的场景,比如贴在公交车上的海报以及艺术家画在地面上的涂鸦。作者希望汽车在行驶过程中不会被这些场景所迷惑,否则这对于自动驾驶汽车来说将是十分危险的。
因此,为了模拟这种真实世界的场景,进一步验证方法的鲁棒性,作者从其他场景剪裁了一些物体(如上图的汽车和人),并粘贴在目标场景中来得到新的相机数据,但是并没有改变场景的激光雷达数据。
从上图的结果表明,单纯基于相机数据的方法很容易把这些粘贴上去的假物体识别为真实物体,而基于多传感器数据的PMF却不会受到这些假物体的干扰,并且可以实现精确的语义分割效果。更多的对抗攻击实验结果见附录。
值得注意的是,在这个实验中并没有使用额外的对抗攻击训练方法来训练PMF。
为了验证Perception-aware loss的影响,作者可视化了在有Perception-aware loss和没有Perception-aware loss情况下的激光雷达分支的预测。从上图的可视化效果来看,加入Perception-aware loss训练的模型可以学习到汽车的完整形状,而baseline模型只关注点的局部特征。这证明了Perception-aware loss的引入可以帮助激光雷达分支更好的学习到图像的信息。
最后总结一下,本文提出了一个有效的融合相机和激光雷达数据的语义分割方法PMF。与现有的在激光雷达坐标系中进行特征融合的方法不同,本方法将激光雷达数据投影到相机坐标系中,使这两种模态的感知特征(RGB图像的颜色和纹理,激光雷达数据的几何形状)能够协同融合。在两个基准数据集上的实验结果和对抗攻击实验的结果表明了该方法的优越性。表明了,通过融合来自相机和激光雷达的互补信息,PMF对复杂的户外场景和光照变化具有高度的鲁棒性。未来,作者将尝试提高 PMF 的效率,并将其扩展到其他自动驾驶任务上。
[1] Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs." IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.
[2] Milioto, Andres, et al. "Rangenet++: Fast and accurate lidar semantic segmentation." 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2019.
[3] El Madawi, Khaled, et al. "Rgb and lidar fusion based 3d semantic segmentation for autonomous driving." 2019 IEEE Intelligent Transportation Systems Conference (ITSC). IEEE, 2019.
[4] Vora, Sourabh, et al. "Pointpainting: Sequential fusion for 3d object detection." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.
[5] Cortinhal, Tiago, George Tzelepis, and Eren Erdal Aksoy. "SalsaNext: Fast, uncertainty-aware semantic segmentation of LiDAR point clouds." International Symposium on Visual Computing. Springer, Cham, 2020.
[6] Zhu, Xinge, et al. "Cylindrical and asymmetrical 3d convolution networks for lidar segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
本文仅做学术分享,如有侵权,请联系删文。
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
扫码添加小助手微信,可
也可申请加入我们的细分方向交流群,目前主要有、、、、、等微信群。
一定要备注:
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题