自动驾驶综述文章-锐单电子商城

A Survey of Autonomous Driving: Common Practices and Emerging Technologies

一. 摘要

本文主要讨论ADS（Automated Driving System）主要问题及相关技术总结，包括：当前挑战、系统架构、新兴方法、核心功能（定位、构图、感知、规划、人机交互）等。本文最后介绍了测试开发的相关数据集和工具。【丰田认为automated和autonomous区别在于：automated车辆的功能几乎不需要人控制，autonomous指能在这种状态下行驶的车辆。从这种差异来看，目前大多数人自称autonomous自动驾驶汽车，因为它们在监控，负责，所以在真正意义上不能被称为autonomous”。】

前景和挑战

问题：预防交通事故，减少交通拥堵，减少排放机会：重新分配驾驶时间，解决运输障碍新趋势：旅游服务，物流革命

二. 引言

2.1 两个着名的自动驾驶研究项目：

1、Eureka Project PROMETHEUS：戴姆勒-奔驰是欧洲最早的自动驾驶研究之一VITA II也基于此。 2、DARPA Grand Challenge：许多经典文章来自美国国防部主办的业内最著名的挑战赛。

2.2 汽车自动化水平分级

L0：无自动化 L1:原司机辅助系统（Primitive driver assistance systems），包括自适应巡航控制、防抱死制动等 L2:部分自动化，先进的辅助系统（Advanced assistance systems），例如，紧急制动或避免碰撞 L3.有条件的全自动化（Conditional automation），在正常运行期间，驾驶员可以专注于除驾驶外的其他任务，但必须能够在紧急情况下快速响应和接管车辆 L4:当天气条件允许，基础设施(信号地图等)完善时，根本不需要司机。 L5:无论在任何情况下，司机都不需要完全实现L4级以上自动驾驶车辆。

2.3 ODD（L3及以上）

ODD的全称是Operational Design Domain(运行设计领域)。每个自动驾驶系统运行的前提和适用范围可能不同。只有满足所有条件，自动驾驶才能保证正常运行。相反，如果缺乏任何前提，系统可能会出现故障。在这种情况下，应采取紧急停车措施或手动接管驾驶员。

2.4 DDT

动态驾驶任务DDT（Dynamic Driving Task）它是道路交通运行车辆所需的所有实时操作和战略功能，不包括行程安排、目的地和路点选择，包括但不限于以下子任务： a) 横向运动(操作)由转向控制； b) 纵向运动(操作)由车辆加速和减速控制； c) 驾驶环境通过目标和事件检测、识别、分类和响应准备(操作和策略)进行监控； d) 对象和事件响应执行（操作和策略）； e) 机动规划(策略)； f) 通过照明、鸣笛、信号、手势等(策略)增强醒目性。其中子任务c)和d)统称为对象、事件检测和响应（OEDR）

驾驶任务示意图(非控制图)

2.5 OEDR

检测和响应目标和事件OEDR（Object and Event Detection and Response）是DDT子任务包括监控驾驶环境（检测、识别和分类对象和事件，并准备根据需要做出响应），并适当响应这些对象和事件（即根据需要完成DDT和/或DDT接管）。

三. 系统框架

自动驾驶系统框架的高级分类

3.1 单车辆系统（Ego-only systems）

即始终在汽车本身执行所有必要的自动驾驶操作

3.2 互联车辆系统（Connected multi-agent systems）

需要依靠其他车辆和一些基础设施来完成一些操作，比如现在比较热的车网，V2X等等。目前，自行车系统更为常见。目前还没有可操作的互联网ADS但一些研究人员认为，这种新技术将是未来驾驶自动化的发展方向。

3.3 模块化系统（Modular systems）

将传感器输入执行器输出的中间过程构成独立的模块，如定位、构图、感知、评估、决策和规划、车辆控制、预测、人机交互等。模块化的基本逻辑就是分而治之，把一个复杂的任务分成若干个较为简单的子任务。除此之外，模块化还有一些隐藏的优势，比如说对一些约束（如紧急制动，超速等），多模块意味着可以从不同的角度进行约束，当一些传感器出现偏差时，可以保证输出更可靠。另一方面，多模块也意外出错的概率大大提高，一个模块的错误可能会沿着这个过程传播，比如前段时间的特斯拉事故。即使后续模块完全正确执行，错误也无法避免。

3.4 端到端系统（End-to-end systems）

指直接从感知输入产生输出，常见的端到端系统有三种主要方法：直接监督深度学习（Direct supervised deep learning）、神经进化（Neuroevolution）加强深度学习（Deep reinforcement learning）。

端到端系统流程图

端到端系统方法

四. 传感器和硬件

为了保证系统的鲁棒性和可靠性，大多数任务都需要更高的传感器冗余度

4.1 硬件模块分类

传感器感器（Exteroceptive sensors），监控车辆本身状态的本体感知传感器（Proprioceptive sensors），通信单元，执行器和计算单元

4.2 比较外部传感器

4.2.1 单目 相机（Monocular Cameras）

最常见、最便宜的传感器之一。此外，二维计算机视觉是一个相对成熟的研究领域。虽然理论上无法获得深度，但基于单目深度也有一些结果。缺点主要是精度和环境因素。还有一些专门为特殊场景开发的相机，如全景相机（Omnidirection Camera），闪光相机（Flash Camera），热敏相机（Thermal Cameras），事件相机（Event Camera）等。

4.2.2 全景相机（Omnidirection Cameras）

理论上，全景相机是一种视角为360度的相机。事实上，这种相机的困难不在于捕捉图像，而在于图像拼接。由于球形图像高度扭曲，校准非常困难。

4.2.3 事件相机（Event Cameras）

事件相机是一个相对新颖的概念，传统的相机是根据时间使用的，而事件相机是事件触发型，它对场景中的移动变化更敏感，因此可以用于检测动态目标。

骑自行车人和车辆的运动会导致亮度的变化，从而触发事件

4.2.4 雷达（Radar）和激光雷达（Lidar）

一般来说，现在采用多传感器的形式，用雷达或激光雷达来弥补相机（包括深度相机）在深度信息中的缺陷。激光雷达实际上与雷达的工作原理相似，但激光雷达发射是红外而不是无线电波，200米以内的精度很高，但与雷达相比，更容易受天气影响，尺寸较大。虽然雷达的精度不如激光雷达高，但是因为测距长，成本低，天气鲁棒性强，目前已经广泛应用于辅助驾驶（ADAS）例如，接近警告和自适应巡航。【干扰问题:金属对电磁波的干扰，生物对红外的干扰，同频段(激光)雷达的干扰】

4.3 本体传感器（Proprioceptive sensor）

一般指车辆自身携带的传感器，如里程计，IMU，转速计等。

4.3.1 里程计（odometry）

里程计系统基于机器人的运动提供对机器人位姿和速度的局部准确估计。里程计信息可以从各种来源获得，例如IMU、LIDAR、RADAR、VIO和车轮编码器等。

4.3.2 惯性测量单元 Inertial Measurement Units (IMU)

是一种使用加速度计和陀螺仪来测量物体三轴姿态角（或角速率）以及加速度的装置。狭义上，一个IMU 内在正交的三轴上安装陀螺仪和加速度计，一共 6 个自由度，来测量物体在三维空间中的角速度和加速度，这就是我们熟知的“6轴IMU”；广义上，IMU可在加速度计和陀螺仪的基础上加入磁力计，可形成如今已被大众知晓的“9轴IMU”。其中加速度计检测物体在载体坐标系统独立三轴的加速度信号，而陀螺仪检测载体相对于导航坐标系的角速度信号，测量物体在三维空间中的角速度和加速度，并以此解算出物体的姿态。IMU在导航中的核心价值无可替代，为了提高其可靠性，还可以为每个单轴配备更多种类的传感器。为保证测量准确性，一般IMU要安装在被测物体的重心上。

4.4 研究机构及公司整车配置

五. 定位与建图（Localization and Mapping）

定位指的是在环境中找到相对于参考系的位置，对于任何移动机器人来说这个任务都是最基本的。

5.1 常用方法

5.1.1 GPS-IMU融合

GPS-IMU融合的主要原理是用绝对位置数据在一定的时间间隔内修正航位推算（dead reckoning）的累积误差。在GPS-IMU系统中，IMU测量机器人位置和方向的变化，并对这些信息进行处理，以便用航位推算法对机器人进行定位。但是IMU有一个显著的缺点，就是我们常说的累积误差。因此引入GPS的绝对位置信息（相当于一个反馈），可以有效地对IMU误差进行校正。GPS-IMU融合的方法的精度比较低，实际上并不能直接用在车辆定位上。在2004年的DARPA挑战赛中，卡内基梅隆大学（Carnegie Mellon University）的红队就因为GPS错误而未能通过比赛。除此之外，在密集的城市环境中，像隧道、高层建筑等都会影响GPS的精度。尽管GPS-IMU系统本身无法满足自动驾驶的性能要求，但是可以和激光雷达等传感器相结合进行位姿估计。

航位推算 Dead Reckoning

航位推算是一个很常见的定位方法。在知道当前时刻的位置，然后通过IMU等传感器去估计下一个时刻的位置。在自动驾驶车辆定位的时候，GPS提供10Hz的定位信息。这每个GPS信息来临的0.1s的间隔里面，车辆位置也会移动很多。那么这个时候就需要航位推算来判断车辆到底移动了多少距离，在哪个地方。所以，航位推算是自动驾驶车辆最基本的，也是必须的一种算法之一。比如推算车辆在隧道中的位置。把dead理解为死角，测量不到的点，这样就好理解很多了，理解为推算测量不到的位置。 [航位推算1] https://zhuanlan.zhihu.com/p/96899895 [航位推算2] https://zhuanlan.zhihu.com/p/96942004

5.1.2 同步定位与建图 Simultaneous localization and mapping（SLAM）

顾名思义，SLAM是一种在线地图绘制同时定位的行为（理论上的同时）。理论上SLAM不需要关于环境的先验信息，就目前而言，更多是应用在室内环境（室外更多还是基于预先构建的地图进行定位）。

5.1.3 基于先验地图定位 a priori map-based localization

基于先验地图的定位技术的核心思想是匹配：定位是通过比较在线数据同先验地图的信息来找到最佳匹配位置。也就是根据先验的地图信息来确定当前的位姿。这个方法有一个缺陷，一般需要额外的一个地图制作步骤，而且，环境的变化可能会对结果产生负面影响（比如光照变化，参照物移动等）。这类方法大致可以分为两大类：基于地标的搜索和基于点云的匹配。

5.1.3.1 地标搜索 Landmark search

与点云匹配相比，基于地标的定位计算成本要低得多。理论上来说，只要地标的数量足够多，这种定位就是鲁棒的，该方法的主要缺点在于地标的依赖性：在地标数量不足的情况下容易出现故障。

5.1.3.2 点云匹配 point cloud matching

点云匹配一般是指局部的在线扫描点云通过平移和旋转同先验的全局点云进行匹配，根据最佳匹配的位置来推测机器人相对地图的局部位置。对于初始位姿的估计，一般是结合GPS利用航位推算。

5.1.3.3 2D tO 3D MATCHING

基于先验地图方法最大的缺陷就在于先验地图的获取上，实际上制作和维护一个可靠的高精度地图是相当费时又费力的一件事。除此之外，还有一些其他情况，比如跨维度的匹配（二维到三维，三维到二维等）。在初始姿态估计的基础上，利用离线的三维点云地图生成二维图像，并同相机捕捉到的图像进行在线归一化比较。这种方法相当于简化了感知的工作，但是增大了计算的复杂度。

六. 感知（Perception）

感知周围环境并提取可供安全导航的信息是自动驾驶的核心之一，随着近年来计算机视觉研究的发展，相机包括三维视觉逐渐成为感知中最常用的传感器。本节主要讨论基于图像的目标检测、语义分割、三维目标检测、道路及车道线检测和目标跟踪等。

6.1 检测

6.1.1 基于图像的目标检测

包括静态物体识别（红绿灯、交通标志、道路交叉口），动态物体识别（车辆，行人和自行车）。目前最先进的方法基本都依赖于深度卷积神经网络（DCNN），但它们之间目前存在明显的区别： 1）单级检测框架（Single stage detection frameworks）使用单个网络同时生成对象检测位置和类别预测。主流的算法有：YOLO(You Only Look Once), SSD(Single Shot Detector) 2）区域生成检测框架（Region proposal detection frameworks）有两个不同的阶段，首先生成感兴趣的一般区域（候选区域），然后通过单独的分类器网络进行分类。

区域生成检测框架是目前效果最好的方法，但是需要很高的计算能力，并且通常难以实施，训练和微调。同时，单级检测算法往往具有快速的推理时间和较低的存储成本，能够满足无人驾驶实时计算的需求。由于近年来计算能力的提升，讲来RPN（region proposal networks）可能取代单机检测网络，成为自动驾驶的主流检测算法。

照明不良和外观变化使用相机的主要缺点是照明条件的变化会严重影响其性能。弱光照条件的场景本来就很难解决，更不要说由于强光照射，阴影移动，天气和季节变化导致的照明变化可能导致算法的失败了。一个显而易见的方法是用备份的传感方式进行感知，例如lidar和radar。但是lidar和radar的感知都有受限的场景，因此传感器融合方案可能是最佳的选择。通过红外传感器的热成像也可用于弱光条件下的物体检测，这对行人检测很有效。当然目前还已经开发出尝试直接处理动态照明条件的纯相机方法，已经提出尝试提取照明不变特征和评估特征质量2种方法。

6.1.2 语义分割

这项任务对驾驶自动化特别重要，因为某些目标对象很难通过边界框来定义，特别是道路，交通线，人行道和建筑物。目前用于语义分割的网络还是太慢而且计算代价太昂贵了，作者认为未来会有单一且通用的网络能够解决自动驾驶不同感知任务的可能性。

a.前置摄像头带有边界矩形框 b.MaskRCNN实例分割结果 c.DeepLabv3语义分割遮罩 d.3D激光雷达探测范围

图像分类，目标检测和语义分割的区别图像分类是给你一堆图，告诉我每张图主要内容的类别，最经典的就是MNIST上的手写数字识别，输出是每张图代表什么数字。目标检测是输入一系列图，把每张图里我感兴趣的目标框出来，比如上面说的用YOLO做行人检测，输出就是用矩形框把每张图里的行人框出来。语义分割的任务是把图像里的每一个像素都归到某个类别里，有点像机器学习中聚类的概念。

自动驾驶综述文章

4.2.1 单目相机（Monocular Cameras）

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录