自动驾驶汽车严重依赖输入的培训数据来做出驾驶决策。从逻辑上讲,数据越详细,车辆的决策就越好,最重要的是更安全。虽然现代相机可以捕捉到非常详细的真实世界特征,但输出结果仍然是2D是的,效果不理想,因为它限制了我们向自动驾驶汽车神经网络提供的信息,这意味着汽车必须学会使用3D猜测世界。与此同时,相机捕捉信息的能力有限,比如在下雨的时候,相机捕捉到的图像几乎无法辨别,而激光雷达仍然可以捕捉信息。因此,2D相机不能在所有环境中工作,因为自动驾驶汽车是神经网络的高风险应用场景,我们必须确保网络尽可能完美,这一切都从数据开始。理想情况下,我们希望我们的网络将是3D数据作为输入,因为它需要3D世界预测,这是激光雷达的用武之地。
本文旨在对LiDAR全面介绍技术及其网络,包括以下内容: LiDAR 它是什么,它是如何工作的 如何处理神经网络? LiDAR 数据及其挑战 LiDAR 数据与 2D 图像有什么不同,标记过程如何变化
LIDAR到底是什么?
LiDAR代表光检测和测距。简而言之,它是一种用激光脉冲形式的光来测量传感器与目标物体之间的距离和尺寸的遥感技术。在自动驾驶场景中,激光雷达用于检测物体相对于车辆的位置,如其他汽车、行人和建筑物。激光雷达比以前更有用。 自激光雷达技术 1960 它被安装在飞机上,以扫描它们飞过的地形。随着 GPS 的出现,LiDAR 在 1980 时代变得越来越流行,当时它开始被用来一个现实世界的位置 3D 模型。
LIDAR怎样工作?
大多数 LiDAR 系统由四个部分组成: 1) 激光:向物体发送光脉冲(通常是紫外线或近红外线)。 2) 扫描仪:调整激光扫描目标物体的速度和激光到达的最大距离。 3) 传感器:测量激光从目标物体反弹并返回系统所需的时间(从而测量距离)。 4) GPS:跟踪激光雷达系统的位置,以确保距离测量的准确性。 现代 LiDAR 系统通常每秒都能发送高达 500k 的脉冲。这些脉冲的测量值聚合成一个点云,本质上是一组代表系统已经感应到的坐标。点云用于创建 LiDAR 周围空间的 3D 模型。
点云(Velodyne LiDAR)
一般有两种类型 LiDAR 系统:机载和地面。由于我们讨论的应用场景是自动驾驶汽车,我们将主要关注地面激光雷达。地面激光雷达附着在固定在地面上的物体上,并在所有可见方向上进行扫描。它们可以是静态的(例如,连接到静态的三脚架或建筑物)或移动的(例如,连接到汽车或火车)。
利用激光雷达数据进行深度学习
鉴于 LiDAR 该系统生成的输出类型与神经网络合理结合,在点云上运行的神经网络已被证明是有效的。激光雷达点云在自动驾驶汽车中的应用可分为两类:
1)以目标检测和场景理解为目的的实时环境感知和处理。
2)为目标定位和参考生成高清地图和城市模型。
听起来可能很复杂,但实际上只是意味着 LiDAR 语义分割、目标检测/定位和对象分类中使用数据的唯一区别是我们现在在 3D 中进行,这使得我们的模型有更多的细微差别。 神经网络在激光雷达数据上运行的挑战之一是,根据扫描时间、天气条件、传感器类型、距离、背景和大量其他因素有很大的变化。由于激光雷达的工作模式,物体的密度和强度发生了很大的变化。另外,传感器经常有噪音,尤其是 LiDAR 数据通常是不完整的(由于某些材料的低表面反射率和城市背景的混乱) LiDAR 神经网络的数据需要能够处理许多变化。 3D 数据的另一个问题是和 2D 图像不同,LiDAR 传感器的点没有直观的顺序,这在我们的模型中引入了对排列和方向不变性的需求,并非所有架构都满足。 为处理 LiDAR 数据提出的四个架构系列如下:
1)基于点云的方法:这些网络使用不同的方法直接在点云上运行。这种方法是直接通过的 MLP 学习每个点的空间特征,并通过最大池积累它们。
2)基于体素的方法:3D数据分为体素3D网格(本质上是立方体网格)与类似CNN在架构中应用3D卷积和池化。
3)基于图的方法:这些方法使用点云中存在的固有几何构建图,并应用常见的方法 GNN 架构,如图 CNN 和图注意网络(它们也符合上述替换不变性条件)。
4) 基于视图的方法:这些方法依赖于使用 2D 久经考验的计算机视觉架构创建点云 2D 投影。在这种情况下,有助于提高模型性能的策略是从不同角度创建多个投影,并投票支持最终预测。
标注LIDAR数据
众所周知,激光雷达数据中最常见的深度学习任务是目标检测、语义分割和分类的变体。因此,LiDAR 标记图像与这些任务非常相似。人工标记很常见,但是因为 LiDAR 许多公司正试图使用预先训练的网络,尽可能自动地标记数据更复杂和令人困惑的性质。 由于 3D 数据的特点,对 3D 标记数据似乎很麻烦。但实际情况并不一定像想象的那么复杂,对于 3D 语义分割和 3D 除了对象分类 3D 空间中的点比 2D 图像中有许多像素,实际标记过程和 2D 对应物几乎一致。至于 3D 相对于目标检测 2D 图像增加的唯一复杂性是,除了标记目标的位置外,我们还需要标记目标所面临的方向。 可以看出,LiDAR 数据标记的主要障碍并不是因为数据有多复杂。只是 LiDAR 数据看起来不像 2D 图像是如此简单和直观,所以标记可能需要更长的时间,特别是对于那些不熟悉这些数据的人,所以一套标记工具来增强视觉和可操作性是非常重要的,冰山数据是自动驾驶LiDAR数据开发了一套非常容易操作的标记工具,基于CVAT(我们在前一篇文章《2022年10款最佳计算机视觉开源数据标注工具》中详细介绍过)的优秀特性开发,我们将在后一篇文章中详细介绍我们LiDAR标注工具。
结论
如上文所述,LiDAR 利用激光脉冲和传感器结构周围环境 3D 视图技术。虽然它自 1960 时代以来一直在使用,但现在最常见的用例之一是 LiDAR 数据与自动驾驶汽车的神经网络相结合。对于常见的神经架构,已经被用于 LiDAR 虽然需要一些必要的调整来操作数据。虽然 LiDAR 点云的性质使数据格式和 2D 但是 LiDAR 标记过程变化不大。