资讯详情

自主驾驶中基于图像和点云融合的:综述

基于图像和点云的独立驾驶集成:综述

(略读)

原文 Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review

论文地址:https://arxiv.org/abs/2004.05224

摘要

摘要:近几年来,自动驾驶汽车发展迅速。然而,由于驾驶环境的复杂性和动态性,完全独立并不容易。因此,自动驾驶车辆配备了一套不同的传感器,以确保鲁棒和准确的环境感知。特别是,CameralDar融合正成为一个新的研究主题。但到目前为止,还没有关于基于深度学习的相机激光雷达融合方法的评论。为了弥合这一差距,促进未来的研究,本文致力于回顾基于深度学习的未来的研究。本综述简要概述了图像和点云数据处理的深入学习。然后深入回顾了基于各自集成层的相机-激光雷达集成方法,包括深度完成、目标检测、语义分割、跟踪和在线交叉传感器校准。此外,我们在公共数据集中比较了这些方法。最后,我们发现了学术研究与实际应用之间的差距和挑战。基于这些观察,我们提供了我们的观点,并指出了有前途的研究方向。

介绍

最近,深入学习和传感器技术的突破促进了自动驾驶技术的快速发展,可以提高道路安全、交通效率和个人机动性[1]-[3]。然而,技术挑战和外部传感器的成本限制了当前自主驾驶系统在有限和控制环境中的少量应用。关键挑战是实时获得车辆3D充分准确地了解周围环境。因此,传感器融合(sensor fusion)它已成为一个新兴的研究主题,利用各种具有互补特性的传感器来增强感知,降低成本。 特别是最近的深度学习进展显著提高了相机激光雷达融合算法的性能。相机和激光雷达具有互补的特点,使-激光雷达集成模型比其他传感器集成配置(雷达相机、激光雷达等)更有效、更受欢迎。更具体地说,基于视觉的感知系统以低成本获得令人满意的性能,通常优于人类专家[4]和[5]。然而,单摄像头感知系统无法提供可靠的3D几何图形对自动驾驶[6]和[7]至关重要。另一方面,立体相机可以提供3D几何,但这样做的计算成本很高,在高屏蔽和无纹理的环境中很难实现[8]–[10]。此外,基于摄像头的感知系统难以应对复杂或恶劣的照明条件,限制了其全天候能力[11]。相反,激光雷达能提供高精度的三维几何图形,对环境光具有不变性。然而,低分辨率(16-128个通道)和低刷新率(10Hz)、恶劣天气条件(大雨、大雾、大雪)和高成本限制。许多工作将这两个互补传感器结合起来,以缓解这些挑战,并表现出比a模式方法显著的性能优势。因此,本文重点回顾了相机激光雷达融合的深度学习融合策略。

相机激光雷达集成不是一项简单的任务。首先,摄像机将现实世界投影到图像平面上,以记录现实世界,点云保留三维几何。 此外,在数据结构方面,点云不规则、无序、连续,图像规则、有序、离散。点云和图像之间的差异导致了不同的特征提取方法。图1显示了图像和点特征之间的比较。 [12]和[13]涵盖了广泛的传感器,包括雷达、相机、激光雷达、超声波、IMU、里程表、GNSS和HD地图。本文仅关注相机激光雷达的融合,因此可以对各种方法进行更详细的总结。此外,我们还涵盖了更广泛的感知相关主题(深度对齐、动态和静态目标检测、语义分割、跟踪和在线交叉传感器校准),这些主题相互关联,并没有完全包含在之前的评论中[13]。本文的贡献总结如下:

?据我们所知,本文是对基于深度学习的图像和点云集成方法的第一篇文章,包括深度完成、动态和静态目标检测、语义分割、跟踪和在线交叉传感器校准。 ?本文根据集成方法组织和审查了该方法。此外,本文还介绍了最新的(2014-2020)概述和最先进的相机激光雷达集成方法的性能比较。 ?本文提出了开放式集检测和传感器未知框架等被忽视的开放性问题,这对自动驾驶技术的实际部署至关重要。此外,还总结了开放挑战的趋势和可能的研究方向。 本文首先简要总结了图像和点云数据的深度学习方法。 第三至第八节分别介绍了深度补充、动态目标检测、静态目标检测、语义分割、目标跟踪和基于相机激光雷达的在线传感器校准。第七节讨论了趋势、公开挑战和希望。最后,总结了第八节。图2显示了调查的总体结构和相应的主题

深度学习概述

A.深度学习图像

图像卷积神经网络(CNN)深度学习是图像处理和理解中最有效、最强大的深度学习模式之一。多层传感器(MLP)相比,CNN它具有平移不变性、权值低、利用层次模式等特点,使其在图像语义提取方面具有较高的效率。CNN隐藏层由卷积层、批量标准化层、激活层和池层组成,都是端到端训练。这种层次结构通过增加抽象层次和感觉域来提取图像特征,从而实现高级语义学习。

B.点云深度学习

点云是激光雷达测量被探测物体表面的一组数据点。在数据结构上,点云稀疏、不规则、无序、连续。点云以3D结构和逐点特征(反射强度、颜色、法线等)对信息进行编码,这些特征对比例、刚性变换和置换不变性。这些特征使得点云上的特征提取对现有的深度学习模型具有挑战性,需要修改现有模型或开发新模型。因此,本节重点介绍了点云处理的常用方法。 1) 基于体积表示:体积表示将点云分为固定分辨率的三维格栅,每个格栅/体素的特征都是手工制作或学习的。标准三维卷积[14]–[16]兼容。为了减少过拟合、方向敏感性和捕捉物体内部结构,提出了几种技术。然而,体积表示空间分辨率和细粒度三维几何在体素化过程中丢失,这限制了其性能。 此外,试图提高其空间分辨率(更密集的元素)会导致立方体的计算和内存占用增加,使其无法缩放。 2) 为了缓解高空间分辨率和计算成本之间的限制,提出了树状数据结构的自适应分辨率划分方法,如kd树[18],[19],八叉树[20]–[22]。将点云分为一系列不平衡树,可根据点密度对区域进行分区。这使得低度较低的区域分辨率较低,从而减少不必要的计算和内存占用。与预建树结构一起提取点特征。

3) 基于二维视图表示:通过将点云投影到多个二维视图平面,生成二维视图/多。这些渲染的多视图像可以通过标准2D通过视图池层聚合这些视图的特征进行卷积处理[23]。因此,通过将点云转换为图像来解决置换不变性问题,通过收集不同视图的特征来实现平移不变性。Qi等人[17]将体积表示与通过球体渲染产生的多视图相结合。不幸的是,2D views在视图渲染过程中,该方法将丢失3D几何信息,难以逐点标签预测[19]。

4) 基于图形表示:点云可以表示为图形,卷积运算可以在空间域或光谱域的图形上实现[24]–[26]。对于空间域中的图卷积,操作由MLP在空间相邻点执行。谱域图卷积将卷积扩展到拉普拉斯谱图上的谱滤波[27]–[29]。 5) 基于点表示:基于点表示的方法使用点云,而无需将其转换为中间数据表示。共享多层传感器用于这方面的早期工作(MLP)处理点云[30],[31],而最近的工作集中在定义点的特殊卷积运算[32]-[38]。 点云直接学习的开创性工作之一是PointNet[30],[31],它使用独立的T-Net模块来对齐点云,并使用共享的MLP逐点特征提取处理单点。 PointNet与基于体积的方法相比,计算复杂度随着输入量的增加而线性增加,PointNet可伸缩性更强。为了实现置换不变性,通过共享所有点相同MLP提取点特征。这些特征通过对称操作(即最大池)聚合,对称操作不变。PointNet特征提取过程定义为: g ( x 1 , . . . , x n ) ≈ f s y m ( h ( x 1 ) , . . . , h ( x n ) ) g ({x1, . . . , xn}) ≈ fsym (h (x1) , . . . , h (xn)) g(x1,...,xn)≈/span>fsym(h(x1),...,h(xn)) 其中x表示输入点,h表示逐点特征提取函数(即共享MLP),fsym表示对称函数(即最大轮询),g是我们想要近似的一般函数。 但是,点网无法提取不同级别的局部点间几何体。为了缓解这一挑战,Qi等人[30]扩展了点网,通过将点分组到多个集合并在本地应用点网,从不同级别提取特征。为了降低PointNet++[30]的计算和内存成本,RandLA Net[39]将随机点采样模块和基于注意的局部特征聚合模块分层堆叠,以逐步增加感受野,同时保持高效率。 与基于点网的方法不同,点之间的空间关系在逐点卷积中显式建模。逐点卷积的目的是将标准的二维离散卷积推广到连续的三维空间。主要的挑战是用连续权函数代替标准卷积中的离散权滤波器。使用PointConv[40]中的MLP以及KPConv[38]和PCNN[33]中的相关函数来近似该连续权重函数。更具体地说,PCNN[33]将卷积核定义为具有权重的3D点。高斯相关函数取核点和输入点的坐标,用于计算任意给定三维坐标下的加权矩阵。KPConv[38]遵循这一思想,但使用线性相关函数。 此外,KPCONV[38]分层应用于局部点面片,这类似于标准CNN的概念。这是输入点x处的一般逐点卷积F∈ 三维连续空间中的R3定义为:

​ (F ∗ h)(x) = ∑ h (xi − x) fi (2) ​ xi∈Nx 其中h是每点核函数,该函数计算给定输入点和核点坐标的加权矩阵。席和FI是X的第四相邻点及其对应特征(强度、颜色等)。Nx是输入点x的所有相邻点,使用KNN或半径邻域确定。

六、 语义分割

本节回顾了现有的用于二维语义分割、三维语义分割和实例分割的相机-激光雷达融合方法。2D/3D语义分割旨在预测每像素和每点类别标签,而实例分割也关注单个实例。 图8和图9显示了3D语义分段网络和典型模型架构的时间线。pic

A.2D语义分割

1)特征级融合:稀疏和密集[46]提出了一种基于NASNet[53]的自动编码器网络,可用于利用图像和稀疏深度进行2D语义分割或深度完成。在融合到共享解码器之前,图像和相应的稀疏深度图由两个并行编码器处理。Valada等人[55]采用了不同深度的多阶段特征级融合,以促进语义分割。Caltagirone等人[90]利用上采样的深度图像和图像进行二维语义分割。该密集深度图像使用稀疏深度图像(来自点云)和图像进行上采样[108]。 性能最好的交叉融合模型在两个平行的CNN分支中处理密集深度图像和图像数据,中间有跳跃连接,并在最后的卷积层中融合两个特征映射。

B.三维语义分割

1)特征级融合:Dai和Nießner[109]提出了3DMV,一种用于三维语义分割的多视图网络,它融合了体素化点云中的图像语义和点特征。二维CNN从多幅对齐的图像中提取图像特征并投影回三维空间。 这些多视图图像特征在输入3D CNN进行逐体素语义预测之前,是最大混合体素的,并与3D几何体融合。3DMV在ScanNet[110]基准上执行了其他基于体素的方法。然而,基于体素的方法的性能取决于体素分辨率,并受到体素边界伪影的阻碍。 为了缓解点云体素化带来的问题,Chiang等人[111]提出了一种基于点的语义分割框架(UPF),该框架还能够有效地表示图像特征、几何结构和全局上下文先验知识。使用语义分割网络提取渲染多视图图像的特征,并投影到三维空间进行逐点特征融合。该融合点云由两个基于PointNet++[30]的编码器处理,以提取局部和全局特征,然后送入解码器进行逐点语义标签预测。类似地,Multi-ViewPointNet(MVPNet)[112]融合了多视图图像语义和3D几何体,以预测逐点语义标签。 排列多面体格表示是多模态数据融合和处理的另一种方法。Su等人[113]的稀疏晶格网络(SPLATNet)采用稀疏双边卷积来实现空间感知表示学习和多模态(图像和点云)推理。在这种方法中,点云特征被插值到一个dl维的准正六面体晶格上,其中双边卷积被应用。结果将插值回点云。使用CNN从多视图图像中提取图像特征,并投影到3D晶格空间以与3D特征组合。CNN对融合后的特征图进行进一步处理,以预测每个点的标签。

标签: 310激光传感器nx

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台