点击上面的计算机视觉车间,选择星标
第一时间送达干货
巫婆塔里的工程师@知乎
自动驾驶系统包括环境感知和定位、行为预测和规划控制。作为一名自动驾驶感知算法工程师,我只谈谈环境感知所需的知识。
以下是我在自动驾驶感知栏中的一篇概述性文章,也包含了各个子领域的介绍性文章。
本专栏主要关注自动驾驶中的环境感知任务,包括感知技术的起源、现状和最新的发展趋势。感知任务主要涉及算法设计,因此专栏的介绍也以算法为主线,特别是深度学习算法。此外,还将涉及一些数据采集、系统测试、算法部署和大规模生产感知系统的分析。
它包括两个概念:自动驾驶和环境感知。首先,什么是自动驾驶?以下是维基百科全书对自动驾驶汽车的定义。
自动驾驶汽车,又称无人驾驶汽车、计算机驾驶汽车、无人驾驶汽车和自动驾驶汽车,是一种需要驾驶员辅助或根本不需要控制的车辆。自动驾驶汽车作为一种自动车辆,可以感知其环境和导航,而无需人类操作。
上述定义中有几个关键词。,我们在这里提到的自动驾驶技术涉及汽车,而不是飞机和火车。,也就是说,自动驾驶汽车可以独立收集和了解周围的环境信息,并根据设定的目的地进行决策和行驶。,这是一个非常重要的概念,涉及到自动驾驶系统的分类。让我们稍微谈谈。
目前自动驾驶系统分类最常用的标准是SAE(美国汽车工程师学会)。不同机构制定的标准会有所不同,但基本概念是一致的。L0(人工驾驶)到L5(全自动驾驶)总结了六个层次。例如,标准的防抱死制动系统(ABS)车身电子稳定系统(ESP)就都属于L1级别。此外,定速巡航和自适应巡航(ACC)车道保持辅助 (LKA)也属于L一级范畴,因为它们只能在一个方向(横向或纵向)控制车辆。若同时实现 ACC和LKA,然后车来了L2级别。对于L对于以下系统,车辆驾驶员需要随时监控周围环境并准备接管。这个很关键,也很多L二级车辆发生交通事故的主要原因是驾驶员对系统期望过高,在驾驶过程中没有时刻关注周围环境。如果一辆车配备了某种车辆Pilot系统,比如Traffic Jam Pilot,然后就到了L3级别。这意味着在某些特定场景下(如高速公路、交通堵塞等),司机不需要总是监控当前的路况,只需要在系统提示时接管车辆。在这种限制下,司机已经成为乘客。对于L目前,4级系统只存在于示范车辆中。我们通常看到的,比如某厂家的车辆在某条路上实现了XX自动驾驶小时无人工接管,属于L4级类别,和L3最大的区别是不需要手动接管,车辆可以在有限的场景下完全独立驾驶。L5级是消除限定场景的条件。这类车辆最大的特点是没有方向盘,每个人都是乘客,车辆的所有控制权都属于系统。
在了解了什么是自动驾驶之后,让我们来看看自动驾驶系统是如何实现的。一般来说,。粗略地说,这三个模块对应于生物系统的眼睛、大脑和四肢。感知系统(眼睛)负责了解周围障碍物和道路的信息。决策系统(大脑)根据周围环境和设定的目标决定下一步要执行的动作,而控制系统(四肢)负责转向、加速、制动等动作。。环境感知负责检测各种移动和静止障碍物(如车辆、行人、建筑物等),并在道路上收集各种信息(如行驶区域、车道线路、交通标志、红绿灯等)。这里主要需要各种传感器(如摄像头、激光雷达、毫米波雷达等)。根据环境感知获得的信息确定车辆在环境中的位置,需要高精度地图和惯性导航(IMU)全球定位系统(GPS)的辅助。
本专栏主要关注环境感知系统,重点介绍摄像头、激光雷达和毫米波雷达,以及它们的集成。它是感知系统中最常用的传感器,其优点是可以提取丰富的纹理和颜色信息,因此适用于目标分类。但缺点是距离感知能力弱,受光照条件影响大。在一定程度上弥补了摄像头的缺点,可以准确地感知物体的距离和形状,因此适用于中近距离的目标检测和测距。但其缺点是成本高,生产困难,感知距离有限,也受天气影响较大。具有全天候工作的特点,可以准确测量目标的速度和距离,感知距离较远,价格相对较低,适用于低成本感知系统或辅助其他传感器。但缺点是高度和水平分辨率低,对静态物体的感知能力有限。
环境感知系统中的各种传感器
上一节提到,环境感知系统的硬件基础是各种传感器及其组合,软件的核心是感知算法。总的来说,。前者获得场景中重要目标的信息,包括位置、大小、速度等,是一种稀疏的表达;后者获得场景中每个位置的语义信息,如驾驶、障碍物等,是一种密集的表达。,这也是自动驾驶和机器人领域最近兴起的概念。对于物体目标(如车辆、行人),全景分割输出分割Mask,类别和实例ID;对于非物体目标(如道路、建筑物),只输出其分割Mask和类别。当然,对于不同层次、不同场景下的自动驾驶应用,所需的感知输出是不同的。
这一轮自动驾驶技术的爆发很大程度上来自于计算机视觉领域深度学习的突破,从图像分类和图像中的物体检测开始。在自动驾驶环境感知中,深度学习的第一个应用任务是这一领域的经典算法,如Faster R-CNN,YOLO,CenterNet这些都是不同时期视觉感知算法的主流。然而,车辆不能仅仅依靠二维图像上的检测结果。因此,为了满足自动驾驶应用程序的需要,这些基本算法需要进一步扩展,其中最重要的是。衍生出前者,后者衍生出来。以此类推,语义分割包括,,。
激光雷达一直是自动驾驶感知系统的重要组成部分,特别是为了获得更准确的三维信息L3/4级应用。,这与图像密集的网格结构大不相同,因此图像领域中常用的算法在应用到点云数据之前需要一定的变化。为了使用图像领域的算法,点云可以转换为鸟瞰图(Bird's Eye View)或者前视图(Range View)下厚网格结构。此外,它还可以改善深度学习中的卷积神经网络(Convolutional Neural Network, CNN),适用于稀疏的点云结构,如PointNet或者Graph Neural Network。
毫米波雷达也广泛应用于自动驾驶感知系统,因为它全天候工作,测速准确,成本低。然而,它通常用于L在2级系统中,或在L三/四级系统作为其他传感器的辅助。,但点云比激光雷达更稀疏,空间分辨率更低。,因此,一些传统方法(如聚类和卡尔曼滤波器)的表现并不比深度学习差得多,这些方法的计算量相对较低。近年来,研究人员开始出现。
单个传感器的感知能力总是有限的。如果先把系统成本放在一边,多传感器集成的方案自然会有更好的选择。一般来说,摄像头是感知系统必不可少的传感器。可用于获取深度信息和360度视野。为更准确地获取三维和运动信息,。这些传感器有不同的坐标系,不同的数据形式,甚至不同的收集频率,所以集成算法的设计不是一个简单的任务。粗略地说,。理论上说,数据层整合是一种更好的方法,但对于要求会更高。
以上大致介绍了环境感知中涉及的算法部分,
还将介绍算法部分的其他内容,如多目相机的集成、多传感器的空间和时间对齐等。
除了核心算设计以外,感知系统中其它重要的部分还包括数据的采集和标注,算法的测试和迭代,以及系统的部署等,这些内容之后专栏中也会推出系列文章进行分析。
了解了感知系统中所包含的技术之后,下一步我们来看看这些。
粗略来说,自动驾驶公司可以分为两大类别。(比如国外的大众,宝马,通用,丰田等,国内的长城,吉利等),(比如特斯拉,蔚来,小鹏等)和(比如国外老牌的博世,大陆,安波福)等,以及国内新兴的华为,大疆等)。这类公司的首要目标是量产,一般以L2级别方案为主,目前也在向L3级别扩展。(比如Waymo,Mobileye,Pony.AI,Momenta,TuSimple等)。这些公司致力于发展L4级别的自动驾驶技术,面向的是诸如Robotaxi,Robotruck和Robobus之类的应用。
对于L2级别的应用,比如紧急制动和自适应巡航,可以只采用前视单目摄像头或者前向毫米波雷达。如果需要变道辅助功能,则需要增加传感器对相邻车道进行感知。常用的方案是在车头和车尾增加多个角雷达,以实现360度的目标检测能力。对于L3级别的应用,需要在特定场景下实现车辆的完全自主驾驶,因此需要扩展车辆对周边环境的感知能力。这时就需要增加激光雷达,侧视和后视的摄像头和毫米波雷达,以及GPS,IMU和高精度地图来辅助车辆定位。到了L4级别以后,由于在特定场景下不需要人工接管了,传感器就不仅需要高精确度,还需要高可靠性。这就需要增加传感器的冗余性,也就是说需要备用系统。
下面我们来看几个具体的案例。
首先是。虽然一提起自动驾驶,很多人脑子里最先想到的就是特斯拉,但是,因为还是需要驾驶员随时准备好接管车辆。如果你只在L2级别的系统里横向对比,那么特斯拉的方案还是很有竞争力的。这个系统只采用了视觉传感器,包括了安装在车身不同位置,多种焦距和视野范围的摄像头。这些摄像头可以覆盖360度的视野,并且有一定的冗余性。特斯拉在AI Day上展示的基于深度学习的的多摄像头融合算法,个人觉得还是非常值得研究一下的,后续也会推出文章进行详细分析。
特斯拉的纯视觉传感器配置(L2级别)
2017年夏天,。前文提到了,TJP系统已经属于L3的范畴,因此。为什么加上引号呢,这是因为该功能在交付的车辆中一直没有开启,用户只能在奥迪自己的演示车中体验。奥迪官方的解释是法规方面的问题,但其实最核心的原因还是技术方面的,也就是L3中的所谓的“接管悖论”问题。在60公里时速以下的结构化道路堵车场景中,TJP系统允许驾驶员低头玩手机或者睡觉。这时如果出现突发状况,可能就会出现接管不及的情况。虽然奥迪在2019年底取消了L3级自动驾驶项目,但是这个探索也为后续的L4和各种高级L2系统的研发提供了宝贵的经验。更多的细节这里就不展开说了,我们下面来看看这套系统中传感器方案。奥迪A8全车共有12个超声波传感器、4个全景摄像头、1个前置摄像头、4个中程雷达、1个远程雷达、1个红外摄像机。此外,,这些都是L3级自动驾驶系统的必备选项。
奥迪A8的传感器配置(L3级别)
从L2到L3,再到L4,传感器方面最大的变化就是增加了激光雷达,而且数量逐渐增加。比如,而且激光雷达的线束数量显著提高,可以达到300米左右的感知范围。除了Waymo,其它各家公司的L4系统都不可避免的包含了一个或者多个激光雷达。从目前的技术发展趋势来看,。到了L4级别,车辆在限定场景下完全自主行驶,这时99%的准确度就不够了,而需要的是99.99999%的准确度,而激光雷达就是小数点后几位的保障。这种保障来自激光雷达与其它各种传感器之间的配合,而不仅仅是简单的堆叠,因此。
Waymo的传感器配置(L4级别)
以上只是简单的介绍了L2/3/4级别中传感器配置的一些典型案例,专栏会在后续的文章中详细分析不同公司的自动驾驶技术路线,以及相应的传感器配置和感知系统设计。
本文仅做学术分享,如有侵权,请联系删除。
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在
也可申请加入我们的细分方向交流群,目前主要有、、、、、等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题