资讯详情

自动驾驶前沿综述:基于深度强化学习的自动驾驶算法

来自|Paperweekly 作者 | 陈道明

学校 | 布里斯托尔大学研究方向 | 自动驾驶方向

仅用于学术分享

这是 21 一年的综述文章可以算是最前沿的自动驾驶技术综述。近年来,随着深度表征学习的发展,强化学习的领域也得到了加强。本文将是目前最先进的自动驾驶 DRL 汇总分类算法。

ba055c22e30a26c06a3c960ceaa574c7.png

Deep Reinforcement Learning for Autonomous Driving: A Survey

https://arxiv.org/abs/2002.00444

自动驾驶系统(AD system),由多层次的感知和控制任务组成,目前可以通过深度学习结构实现感知。然而,在控制层面,经典的监督学习不再被使用,因为代理商需要在每一刻做出行动决策,这可能会改变场景条件。

▲ 各级自动驾驶任务

感知模块的目标是创建环境状态的中间级表示(如所有障碍物和代理的鸟瞰图),最终产生驾驶策略的决策系统稍后将使用。该状态将包括车道位置、可行区域、代理(如汽车和行人)位置、交通信号灯状态等。感知中的不确定性传播到信息链的其他部分。强传感对安全至关重要,因此使用冗余源可以提高检测信心。这是语义分割、运动估计、深度估计、污点检测等感知任务的结合,可以有效地统一为多任务模型。

▲ 鸟瞰图由多视角相机集成

该模块的作用是将感知模块获得的信息映射到高级动作或决策层。该模块旨在提供对场景的更高层次的理解,通过融合异构传感器源(如激光雷达、相机、雷达、超声波),抽象和概括场景信息,为决策制定提供简化的信息。

定位与建图技术又称定位与建图技术 SLAM 它是自动驾驶的关键技术之一。由于问题的规模,传统 SLAM 该技术通过语义对象检测得到加强,以实现可靠的消歧。此外,局部高清地图(HD maps)可作为物体检测的先验。

轨迹规划是高清地图或基于自动驾驶的关键模块 GPS 在地图上规划路线,并引导代理生成运动层的命令。经典的运动计划忽略了环境动态和差异约束,因此类似于 A* 算法等基础 Djisktra 算法不适用于这个问题。快速探索随机树(RRT)探索通过随机采样和无障碍路径生成的配置空间。目前有很多版本 RRT 运动规划用于自动驾驶管道。

这是底层的运动控制,即汽车加速、方向盘旋转角度和刹车。目前的车辆控制通常是基于经典的最佳控制理论,通过状态空间方程中型汽车的现状和 控制输入量控制汽车。通常使用这种方法 MPC 模型和 PID 控制器使车辆跟随轨道。然而,目前,自动驾驶车辆通常使用强化学习。该方法的优点是可以处理具有未知奖励和状态转移概率的随机控制和不适问题。更多这方面的内容推荐阅读综述文章[1]。

强化学习(RL)是于 监督学习(Sueprvised Learning)非监督学习(Unsupervised Learning)第三种机器学习(Machine Learning)方式。RL 行动策略由代理商完成。代理的目标是在其生命周期内最大限度地获得累积奖励。代理可以通过了解不同状态的预期效用(即预期未来奖励的折扣和)来逐渐增加其长期奖励。

在形式化涉及单个 RL 马尔可夫在代理顺序决策过程中 (MDP) 是最流行的解决方案。MDP 由一个状态集合、动作集合、转移函数奖励函数组成。目标是找到最佳策略 ,从而产生最高的折扣奖励总和预期值:

其中,是遵循策略状态值方程,折扣系数,控制代理如何看待未来的奖励,低鼓励代理人的短视行为,其中代理人旨在最大化短期奖励,而高值导致代理人具前瞻性,并在更长的时间内最大化奖励。它可以是有限的,也可以是无限的。

另一个与状态函数方程相关的是状态动作方程,也称为Q值”:

▲ MDP 决策的组成部分和关系图

在现实世界的许多应用领域,智能身体不可能观察到环境状态的所有特征;在这种情况下,决策问题被描述为一些可观察的马尔可夫决策过程(POMDP)。解决强化学习任务意味着找到策略,该策略最大化了状态空间轨迹上的预期折扣总和。

RL 代理商可以直接学习价值函数估计、策略和/或环境模型。动态规划(DP)算法可用于在给定环境模型的奖励和转移函数方面计算最优策略。与 DP 不同,在 MonteCarlo 方法中没有完整的环境知识假设。蒙特卡洛法在逐集意义上是增量的。情节完成后,价值估计和政策更新。

另一方面,时差(TD)该方法在逐渐意义上是增量的,适用于非情节场景。就像蒙特卡罗的方法一样,TD 没有环境动态模型,方法可以直接从原始经验中学习。 DP 一样,TD 该方法基于其他估计来学习它们的估计。

文章对于 RL 和 DRL 综合概述算法,这里不详细解释,建议系统学习这些算法。

在自动驾驶中,RL 可完成的任务包括:控制器优化、路径规划和轨迹优化、运动规划和动态路径规划复杂导航任务开发高级驾驶战略、高速公路、交叉口、合并拆分战略研究、预测行人、车辆等交通参与者的意图,最终找到确保安全和风险估计的策略。

为了成功 DRL 在自动驾驶任务中,设计适当的状态空间、动作空间和奖励函数非常重要。

自动驾驶汽车常用的状态空间特征包括:汽车的位置、方向和速度,以及汽车传感器视觉范围内的其他障碍物。此外,我们通常使用以独立车辆为中心的坐标系来增强车道信息、路径曲率、独立的过去和未来轨迹、纵向信息等。我们通常使用鸟瞰图来显示这些信息。

▲ 鸟瞰图

独立车辆的控制策略需要操作一系列执行器,如方向盘、油门和制动器(暂时不考虑其他执行器)。需要注意的是,这些控制器在连续空间中运行,而且大多数控制器都在连续空间中运行 DRL 控制器属于离散空间。因此,我们需要选择合适的时间步长。

奖励

自动驾驶 DRL 代理设计奖励函数仍然是一个悬而未决的问题。AD 任务的标准示例包括:向目的地行驶的距离 、车速保持静止,与其他道路用户或场景对象碰撞,人行道上的违规行为保持在车道上,保持舒适稳定,避免极端加速、刹车或转向,遵守交通规则。

体育规划是确保目标点和目的地之间存在路径的任务。然而,动态环境和变化车辆动力学中的路径规划是自动驾驶中的一个难题,如通过十字路口或并入高速公路。许多文章在这方面尝试并取得了良好的效果,如论文[4] [5] [6] [7]

自动驾驶数据集使用包含图像和标签对的培训集来处理各种模式的监督和学习设置。强化学习需要一个可以恢复状态-正确动作的环境,并建模车辆状态、环境、环境和代理的运动和动作的随机性。各种模拟器被积极用于训练和验证强化学习算法。具体信息如下:

我目前还没有接触到这部分内容,所以先留个坑,以后再填。

[1] A Survey of Dep Learning Applications to Autonomous Vehicle Control:

https://ieeexplore.ieee.org/abstract/document/8951131?casa_token=fwUZxwU0Eo8AAAAA:B

[2] End-to-End Deep Reinforcement Learning for Lane Keeping Assist:https://arxiv.org/abs/1612.04340

[3] Deep Reinforcement Learning framework for Autonomous Driving:https://www.ingentaconnect.com/content/ist/ei/2017/00002017/00000019/art00012

[4] A Reinforcement Learning Based Approach for Automated Lane Change Maneuvers:https://ieeexplore.ieee.org/abstract/document/8500556?casa_token=OcyB7gHOxcAAAAAA:JrwO6

[5] Formulation of deep reinforcement learning architecture toward autonomous driving for on-ramp merge:https://ieeexplore.ieee.org/abstract/document/8317735?casa_token=HaEyBLwaSU0AAAAA:5

[6] A Multiple-Goal Reinforcement Learning Method for Complex Vehicle Overtaking Maneuvers:https://ieeexplore.ieee.org/abstract/document/5710424?casa_token=Y-bJbe3K9r0AAAAA:ZNo

[7] Navigating Occluded Intersections with Autonomous Vehicles Using Deep Reinforcement Learning:https://ieeexplore.ieee.org/abstract/document/8461233?casa_token=uuC5uVdLp60AAAAA:6fr7

[8] Reinforcement Learning with A* and a Deep Heuristic:https://arxiv.org/abs/1811.07745

[9] CARLA: An Open Urban Driving Simulator:https://proceedings.mlr.press/v78/dosovitskiy17a.html

[10] TORCS - The Open Racing Car Simulator:https://sourceforge.net/projects/torcs/

[11] MADRaS Multi-Agent DRiving Simulato:https://www.opensourceagenda.com/projects/madras

[12] Microscopic Traffic Simulation using SUMO:https://ieeexplore.ieee.org/abstract/document/8569938?casa_token=1z4z-bT6kTsAAAAA:BdTO6tJB4xEgr_EO0CPveWlForEQHJWyprok3uyy3DssqzT-7Eh-pr7H__3DOJPDdpuIVUr7Lw

[13] Flow: Architecture and Benchmarking for Reinforcement Learning in Traffic Control:https://www.researchgate.net/profile/Abdul-Rahman-Kreidieh/publication/320441979_Flow_Archite

[14] A Collection of Environments for Autonomous Driving and Tactical Decision-Making Tasks:https://github.com/eleurent/highway-env

本文仅做学术分享,如有侵权,请联系删文。

后台回复:即可下载国外大学沉淀数年3D Vison精品课件

后台回复:即可下载3D视觉领域经典书籍pdf

后台回复:即可学习3D视觉领域精品课程

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

扫码添加小助手微信,可

也可申请加入我们的细分方向交流群,目前主要有等微信群。

一定要备注:,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近5000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

标签: td系列传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台