ICCV 2021 | PMF: 基于视觉感知的多传感器融合点云语义分割方法-锐单电子商城

作者，月明星稀风萧萧@知乎

来源丨https://zhuanlan.zhihu.com/p/419187044

编辑丨3D视觉工坊

今天，我将分享一个 ICCV 2021 基于视觉感知的多传感器集成点云语义分割方法《Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation》。

论文连接

Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation（https://openaccess.thecvf.com/content/ICCV2021/papers/Zhuang_Perception-Aware_Multi-Sensor_Fusion_for_3D_LiDAR_Semantic_Segmentation_ICCV_2021_paper.pdf）

代码连接

GitHub - ICEORY/PMF: Perception-aware multi-sensor fusion for 3D LiDAR semantic segmentation (ICCV 2021)（https://github.com/ICEORY/PMF）

1. Introduction

语义分割是计算机视觉的关键问题之一，可以提供细粒度环境信息。因此，它在机器人和自动驾驶等许多应用中都有极其重要的应用。

根据传感器的类型，目前的语义分割方法可分为三类：基于摄像头、激光雷达和多传感器集成。

基于相机的方法，即使用Deeplab以[1]为代表的2D语义分割法。由于RGB图像拥有丰富的颜色、纹理等表征信息，并且得益于公开数据集的丰富性，基于相机的语义分割方法已经取得了极大的进展。然而，由于相机是一个被动传感器，它很容易被光干扰，所以收集到的数据经常有噪音，这对自动驾驶和其他应用程序非常危险。因此，近年来，越来越多的研究人员关注激光雷达3D提出了语义分割法RangeNet[2]等方法。此外，激光雷达还可以提供空间几何信息，因为它是一种主动传感器。然而，激光雷达收集的数据往往非常稀疏和不规则，缺乏颜色和纹理信息，这使得仅仅基于激光雷达数据进行细粒度的语义分割非常具有挑战性。

因此，一个非常直接的想法是融合相机和激光雷达的两种传感器的数据共同完成语义分割任务。

2. Motivation

已有基于多传感器数据的语义分割方法，比如RGBAL[3]和PointPainting[4]将点云投影到图像上，获取相关像素信息，然后将相关图像像素投影回点云空间，集成点云空间中的多传感器。然而，这种方法会导致相机传感器中的严重数据损失，如图1左侧所示，投影后的纹理、形状等视觉感知信息严重丢失。

针对上述问题，作者提出了基于透视投影的整合方法，如上图右侧所示，以保留足够的图像信息。

但如上图所示，由于透视投影获得的点云非常稀疏，神经网络只能提取局部点云的特征，很难从稀疏点云中提取物体的视觉感知特征。

为了解决上述问题，作者提出了一种新的多传感器感知集成方案（PMF），有效地整合相机和激光雷达的信息。本文的主要贡献包括以下三点：

一是提出了全新的多传感器感知融合方案（PMF），来自相机和激光雷达的信息可以有效地集成。

第二，提出的多传感器集成方法仍然可以达到理想的语义分割效果，当光线极利（如夜间）和点云极度稀疏时。特别是在视觉对抗样本的情况下，本文的方法仍能达到理想的语义分割效果。

第三，提出了一个新的perception-aware loss，它可以促进网络捕获不同模式的感知信息（RGB激光雷达数据的颜色和纹理)。

在大规模数据集中提出的方法SemanticKITTI、nuScenes和Sensat所有这些都可以达到最高的结果。并通过一系列的消融实验验证了该方法的优点和合理性。

注：感谢微信公众号「3D视觉工坊」整理。

3. Method

3.1. Overview

PMF首先使用透视投影方法（Perspective projection）将激光雷达数据投影到相机坐标中。然后，通过一个双流网络提取多模态数据的特征，通过多个基于残差的集成块提取多模态特征（Residual-based fusion block）融合。最后，通过感知损失函数（Perception-aware loss）引入网络训练，量化两种模式之间的感知差异，帮助网络学习不同模式的感知特征（RGB激光雷达数据的颜色和纹理)。其结构如上图所示，主要包括三个主模块。

3.2. 模块一：Perspective projection

考虑到之前的方法通常是将点云投影到图像上，获取相关的像素信息，然后将相关的图像像素投影回到点云空间，并在点云空间上集成多传感器。这导致了严重的信息损失。为了解决这个问题，作者提出了基于透视投影的集成方法，将激光雷达数据投影到相机坐标系下，以保留足够的相机传感器数据。

在已知的校准参数的帮助下，将激光雷达数据投影到图像。对于投影后的每个激光雷达点，使用跟踪backbone方法SalsaNext[5]相同的设计，即保留(d, x, y, z, r)五维特征。d表示深度值。

3.3. 模块二：Two stream network with residual-based fusion modules

由于相机数据与激光雷达数据中包含的信息存在显著差异，因此使用双分支网络分别处理不同模式的数据。

考虑到多模态特征的融合相机数据容易受到光照和天气条件的影响，相机的数据可能不可靠。因此，作者设计了它Residual-based整合模式仅以整合特性作为激光雷达特性的补充，激光雷达特性保持不变。此外，为了进一步消除整合特性中噪声信息的干扰，作者还加入了Attention Module，选择性地将融合后的特性添加到激光雷达的特性中。

通过以上设计，最终的融合特征更加可靠。

3.4. 模块三：Perception-aware loss

从预测结果来看，激光雷达分支很难从稀疏点云中捕捉到感知特征，即只有在物体边缘和投影数据特征被激活。相比之下，相机分支可以从密集的图像数据中学习数据的特征。如上图所示，相机分支在物体内部的特征被激活，特征变化是连续的。

因此，本文提出了一种Perception-aware loss，使网络能够更好地利用上述分支的预测优势，最终达到更好的预测效果。具体设计如下：

为了利用图像分支的特性来提高点云分支的预测效果，首先在等式(1)中定义预测熵，然后根据等式(2)进一步计算预测置信度。由于并非所有来自相机分支的信息都是有效的，例如，在物体的边缘，预测信心相对较低，因此通过等式（3）来衡量相机分支信息的重要性。希望不同模式的预测结果应该是语义分布相似，因此，在这里介绍KL散度。最终，通过公式(4)来计算激光雷达分支的Perception-aware Loss。

如公式(4)所述，激光雷达分支包含完整的损失函数Perception-aware Loss、Focal Loss以及Lov′asz softmax Loss。

受Mutual Learning受机制的启发，相机分支损失函数的设计与激光雷达分支相似。

4. Experiments

展示在这一部分PMF引入不同激光雷达数据集和不同天气条件下的泛化实验结果进行验证PMF鲁邦在输入对抗攻击样本本。实验结果证明，PMF在各种情况下，它具有良好的泛化性，并能在对抗攻击中保持高鲁棒性。

4.1. Results on SemanticKITTI

本方法在评估SemanticKITTI上精度，将PMF与几种最先进的激光雷达语义分割方法法。由于SemanticKITTI只提供前视图摄像头的图像，因此该方法将点云投影到透视图中，只保留图像上的可用点来构建SemanticKITTI的一个子集。为了评估公平性，作者使用其他方法公开的最先进的训练模型来评估前视图数据。

实验结果如上表所示。PMF实现基于投影的最佳性能。PMF在mIoU性能优于中等SalsaNext4.5%。然而，PMF性能比最先进的三维卷积方法，即Cylnder3D[6]相比差1.0%。但是考虑到远距离感知对自动驾驶汽车的安全性也至关重要，因此作者还进行了基于距离的评估。

实验结果证明，当距离大于30米时，PMF的性能超过了Cylinder3D[6]，达到最好性能。作者认为，这是由于相机数据可以为远处物体提供了更多的信息，因此基于融合的方法在远距离上优于仅使用激光雷达数据的方法。这也表明基于PMF更适合于解决稀疏激光雷达数据的语义分割任务。

4.2. Results on nuScenes

论文也在一个更复杂、也更稀疏的数据集nuScenes上进一步评估了所提出的方法。nuScenes的点云比SemanticKITTI的点云更稀疏(35k点/帧 vs. 125k点/帧)。

实验结果如上表所示。从结果来看，PMF 在 nuScenes 数据集上实现了最佳性能。这些结果与预期一致，即，由于PMF集成了RGB图像，因此能够在更加稀疏的点云条件下依然能达到理想的语义分割效果。

除此之外，如上图所示，PMF方法在夜晚也具有很好的语义分割效果，再一次证明了PMF方法的鲁棒性。更多的可视化结果请查看论文附录。

4.3. Results on SensatUrban

在投稿之后，此篇文章的方法还参加了SensatUrban ICCV2021竞赛。

注意，因为SensatUrban数据集上数据形式的限制，所以无法使用透视投影，因此采用的是基于鸟瞰图的投影方式来处理数据的。其他关于实施方案的细节见GitHub。

4.4. Adversarial Analysis

由于真实世界总是存在一些会让汽车迷惑的场景，比如贴在公交车上的海报以及艺术家画在地面上的涂鸦。作者希望汽车在行驶过程中不会被这些场景所迷惑，否则这对于自动驾驶汽车来说将是十分危险的。

因此，为了模拟这种真实世界的场景，进一步验证方法的鲁棒性，作者从其他场景剪裁了一些物体（如上图的汽车和人），并粘贴在目标场景中来得到新的相机数据，但是并没有改变场景的激光雷达数据。

从上图的结果表明，单纯基于相机数据的方法很容易把这些粘贴上去的假物体识别为真实物体，而基于多传感器数据的PMF却不会受到这些假物体的干扰，并且可以实现精确的语义分割效果。更多的对抗攻击实验结果见附录。

值得注意的是，在这个实验中并没有使用额外的对抗攻击训练方法来训练PMF。

4.5. Effect of perception-aware loss

为了验证Perception-aware loss的影响，作者可视化了在有Perception-aware loss和没有Perception-aware loss情况下的激光雷达分支的预测。从上图的可视化效果来看，加入Perception-aware loss训练的模型可以学习到汽车的完整形状，而baseline模型只关注点的局部特征。这证明了Perception-aware loss的引入可以帮助激光雷达分支更好的学习到图像的信息。

5. Conclusion

最后总结一下，本文提出了一个有效的融合相机和激光雷达数据的语义分割方法PMF。与现有的在激光雷达坐标系中进行特征融合的方法不同，本方法将激光雷达数据投影到相机坐标系中，使这两种模态的感知特征（RGB图像的颜色和纹理，激光雷达数据的几何形状）能够协同融合。在两个基准数据集上的实验结果和对抗攻击实验的结果表明了该方法的优越性。表明了，通过融合来自相机和激光雷达的互补信息，PMF对复杂的户外场景和光照变化具有高度的鲁棒性。未来，作者将尝试提高 PMF 的效率，并将其扩展到其他自动驾驶任务上。

参考文献

[1] Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs." IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.

[2] Milioto, Andres, et al. "Rangenet++: Fast and accurate lidar semantic segmentation." 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2019.

[3] El Madawi, Khaled, et al. "Rgb and lidar fusion based 3d semantic segmentation for autonomous driving." 2019 IEEE Intelligent Transportation Systems Conference (ITSC). IEEE, 2019.

[4] Vora, Sourabh, et al. "Pointpainting: Sequential fusion for 3d object detection." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.

[5] Cortinhal, Tiago, George Tzelepis, and Eren Erdal Aksoy. "SalsaNext: Fast, uncertainty-aware semantic segmentation of LiDAR point clouds." International Symposium on Visual Computing. Springer, Cham, 2020.

[6] Zhu, Xinge, et al. "Cylindrical and asymmetrical 3d convolution networks for lidar segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

资讯详情

ICCV 2021 | PMF: 基于视觉感知的多传感器融合点云语义分割方法

1. Introduction

2. Motivation

3. Method

3.1. Overview

3.2. 模块一：Perspective projection

3.3. 模块二：Two stream network with residual-based fusion modules

3.4. 模块三：Perception-aware loss

4. Experiments

4.1. Results on SemanticKITTI

4.2. Results on nuScenes

4.3. Results on SensatUrban

4.4. Adversarial Analysis

4.5. Effect of perception-aware loss

5. Conclusion

参考文献

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

ICCV 2021 | PMF: 基于视觉感知的多传感器融合点云语义分割方法

1. Introduction

2. Motivation

3. Method

3.1. Overview

3.2. 模块一：Perspective projection

3.3. 模块二：Two stream network with residual-based fusion modules

3.4. 模块三：Perception-aware loss

4. Experiments

4.1. Results on SemanticKITTI

4.2. Results on nuScenes

4.3. Results on SensatUrban

4.4. Adversarial Analysis

4.5. Effect of perception-aware loss

5. Conclusion

参考文献

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录