资讯详情

【论文阅读】Learning to Drive in a Day

在这里插入图片描述

  • 论文下载 & 官方Blog

  • 关于AC算法

    • 除了传统的强化学习外,传统的强化学习value-based另一大类是方法policy-based方法。。前者采用间接方法,即通过学习值函数(value function)或动作值函数(action-value function)来得到policy。后者是直接对的policy因此,后者也被称为建模和学习policy optimization。Policy-based方法可分为两类:gradient-based方法和gradient-free方法。前者也称为policy gradient(PG)方法。而policy gradient方法可以细分为几类,如finite difference,Monte-Carlo和Actor-Critic等。
    • Actor-Critic(AC)方法其实是policy-based和value-based从名字上看,方法的组合包括演员/执行者两部分(Actor)和评价者(Critic)。。一方面可以看actor战略更新依赖于学习策略critic估计的value function;另一方面critic估计value function,而value function也是策略函数。Policy和value function相互依赖,相互影响,需要在训练过程中迭代优化。事实上,这种多元优化的迭代思想体现在机器学习中。
  • on-policy和off-policy的区别、on-policy和off-policy的解释

    • sutton的《introduction to reinforcement Learning》中写道:

      On-policy methods attempt to evaluate or improve the policy that is used to make decisions, whereas off-policy methods evaluate or improve a policy different from that used to generate the data. 同策( on-policy):评估和优化策略与决策策略一致; 异策(off-policy) :进行评估和优化的策略与产生数据的策略不一致。

    • 典型的有:DQN族、DDPG族、SAC等等,包括经验回放(experience replay)是的,可以说是不同的策略算法。因为在更新策略时,将从经验回放中提取数据来更新当前的策略,这些数据是由以前的策略生成的,也就是说,生成数据的策略不同于当前的更新策略,即off-policy。 典型的有:原始AC、REINFORCE、A3C等等,这些算法需要用当前的策略来更新trajectory,然后用这个trajectory数据更新当前策略,即on-policy。
  • 参考资料 Wayve技术解析、 微信公众号_新智元、 知乎 模型输入单目摄像头的视觉图像,输出是车辆的转角和速度命令DDPG算法。先在simulation环境训练的目的是找到网络结构和超参数,使完成任务的训练数据尽可能少。这些网络结构和参数沿用于实车训练。发现用vae loss作为state representation提高稳定性和数据使用效率(using an auto-encoder reconstruction loss significantly improved stability and data-efficiency of training)。

论文翻译:学会一天开车

  • 摘要
  • 一、介绍
  • 二、相关工作
    • a)地图法
    • b)模仿学习
    • c)强化学习
  • 三、系统架构
    • A.将驾驶转化为马尔可夫决策过程
      • a)状态空间
      • b)动作空间
      • c)回报函数
    • B.加强学习算法–DDPG(Deep Deterministic Policy Gradients)
    • C.基于任务的训练结构
  • 四、实验
    • A.仿真
    • B.实车训练
  • 五、讨论

摘要

我们演示了自动驾驶深度强化学习(autonomous driving)第一次应用。通过随机初始化参数,。我们设置了一个常见且容易获得的设置:车辆的行驶距离没有安全驾驶员的控制。我们使用连续的、无模型的深度强化学习算法来探索和优化车辆。,该框架不再依赖于定义逻辑规则、高精度地图和方向监控(defined logical rules, mapping, and direct supervision)。最后,我们讨论了将这种方法扩展到更广泛的自动驾驶任务中的挑战和机遇。

一、介绍

由于自动驾驶技术可能从根本上改变旅行和交通方式,它引起了研究和公司的广泛关注。一般来说,,即带注释的3D驾驶行为在几何图中定义。(其他场景),因为它严重依赖于外部基础设备的映射(external mapping infrastructure),而不是关注对当地场景的理解(understanding of the local scene)。基于地图的缺陷. 为了使自动驾驶成为一种常见的技术,我们,就像人类一样,依靠对实时环境的全面理解[1],遵循简单的高维方向(while following simple higher level directions)(例如转向路径规划)。该领域的最新工作表明,[2]。引入机器人系统 强化学习是机器学习的一个子领域,主要用于解决马尔可夫决策问题(Markov Decision Problems)(MDP)[3],即。近些年来,RL在游戏中表现出超越人类的能力,比如围棋[4]和国际象棋[5],在计算机游戏[6]等虚拟环境中,在使用机械手[7]进行简单任务时,潜力巨大。我们认为,强化学习的普遍性使其成为适用于自动驾驶的一种有效的框架。最重要的是,它提供了一种纠正机制(corrective mechanism学习自动驾驶。引入强化学习 最后,我们在这里

  1. 将自动驾驶视为马尔可夫的决策问题,并解释如何设计这个问题的参数(various elements)使其更容易解决,同时保持其通用性和可扩展性。
  2. 展示一种经典RL算法-DDPG(deep deterministic policy gradients)[8]可以在虚拟环境中快速学习简单的自动驾驶任务。
  3. 加强加强学习(RL)在现实世界中控制车辆高效安全驾驶,讨论了他需要的系统设置(system set-up)。
  4. 仅使用车载计算(on-board computation),学习算法通过少量场景学习驾驶现实世界的汽车。 。此图展示的是Actor-Critic算法,我们用它来学习驾驶的策略(policy)和值函数(value function)。 我们设置一个回报(reward),即安全驾驶员干预之前车子行驶的距离,我们将最大限度的提高这个回报值。这个网站https://wayve.ai/blog/l2diad可以观看我们的小车学会自动驾驶的视频。

二、相关工作

   我们认为这是第一次表明深度强化学习运用于自动驾驶是一种有效的方法。我们看中他(RL)具有超越模仿学习的潜力,因此我们希望研究界从强化学习的角度更仔细地研究自动驾驶。当前文献中(和RL)最相近的工作主要可以归类为模仿学习(imitation learning)和基于地图的经典方法(classical approaches relying on mapping)。

a)地图法

   自早期的例子[9],[10]以来,自动驾驶汽车系统已被设计为[11],[12],[13]。传统上,这些系统由许多独特的组件(components)构成,例如感知(perception、状态估计(state estimation、映射(mapping)、计划(planning)和控制(control)[14]。但是,由于每个组件都需要单独指定和调整,而且组件之间存在复杂的相互依赖关系,导致很难将其扩展到一些更复杂的驾驶场景中去。   对于这种模块化方法(modular approach),很多注意力投向了计算机视觉组件。论文[15]中的有助于在地图化的环境(mapped environment)中控制车辆[16],而(例如语义分段[1])使机器人可以解释场景。这些模块化任务得到了像[17]、[18]这样的基准论文的支撑。   这些模块化映射方法(modular mapping approaches)在很大程度上是商业上开发自动驾驶系统的重点。但是这种方法也

b)模仿学习

   最近的一种用来解决自动驾驶任务的方法是模仿学习[19],[20],其目的是。这种方法的一个重要优点是,它可以使用端到端深度学习,针对最终目标共同优化模型的所有参数(parameters),从而减少了调整每个组件(component)的工作量。但是模仿学习在扩展(scale)上也存在挑战。无法获得专家实例来模仿可能遇到的每一种潜在情况,并且在处理演示策略的分发(distributions of demonstrated policies)的问题上也存在挑战(例如:在多条车道上行驶)。

c)强化学习

强化学习是解决马尔可夫决策问题(MDP)[21]的一类广泛的算法。 一个MDP包括:

  • 集合 S \mathcal{S} S表示(states)。
  • 集合 A \mathcal{A} A表示(actions)。
  • 一个(transition probability function) p : S × A → P ( S ) \mathcal{p}:\mathcal{S} \times \mathcal{A} \to \mathcal{P \left(S\right) } p:S×A→P(S),它为每对 ( s , a ) ∈ S × A \mathcal {\left(s,a\right) \in S\times A} (s,a)∈S×A分配一个概率分布 p ( ⋅ ∣ s , a ) \mathcal{p \left(\cdot | s,a\right)} p(⋅∣s,a),该概率分布(probability distribution)表示:发生动作 a \mathcal{a} a使得状态 s \mathcal{s} s到另一种状态的概率。
  • 一个(reward function) R : S × S × A → R \mathit{R}:\mathcal{S} \times \mathcal{S} \times \mathcal{A} \to \mathbb{R} R:S×S×A→R,回报 R ( s t + 1 , s t , a t ) \mathit{R \left(s_{t+1},s_t,a_t \right)} R(st+1​,st​,at​)表示:发生动作 a t \mathcal{a_t} at​使得从状态 s t \mathcal{s_t} st​到状态 s t + 1 \mathcal{s_{t+1}} st+1​的回报。
  • 一个面向未来的(future discount factor) γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ∈[0,1],代表我们对未来回报(future rewards)的关心程度。

   MDP的解决办法是(policy) π : S → A \pi:\mathcal{S}\to\mathcal{A} π:S→A,即对于每一个 s 0 ∈ S s_0 \in \mathcal{S} s0​∈S最大化: V π ( s 0 ) = E ( ∑ t = 0 ∞ γ t R ( s t + 1 , s t , π ( s t ) ) )               ( 01 ) V_{\pi}\left(s_{0}\right)=\mathbb{E}\left(\sum_{t=0}^{\infty} \gamma^{t} R\left(s_{t+1}, s_{t}, \pi\left(s_{t}\right)\right)\right)       (01) Vπ​(s0​)=E(t=0∑∞​γtR(st+1​,st​,π(st​)))       (01)(expectation is taken over states s t + 1 s_{t+1} st+1​ sampled according to p ( s t + 1 ∣ s t , π ( s t ) ) \mathcal{p \left(s_{t+1} | s_t,\pi \left(s_t\right)\right)} p(st+1​∣st​,π(st​)))。   在我们的设置中,。这等同于到达某一状态就会结束,即终止状态无法避免并且在该状态下的任何动作都将获得零回报。   将上面的方程重新整理为递归形式(recurrent form),我们得到两个贝尔曼方程之一: V π ( s 0 ) = E ( R ( s 1 , s 0 , π ( s 0 ) ) + γ V π ( s 1 ) )             ( 02 ) V_{\pi}\left(s_{0}\right)=\mathbb{E}\biggl(R\left(s_{1}, s_{0}, \pi\left(s_{0}\right)\right)+\gamma V_{\pi}\left(s_{1}\right)\biggr)      (02) Vπ​(s0​)=E(R(s1​,s0​,π(s0​))+γVπ​(s1​))      (02)上式的期望 E \mathbb{E} E由状态 s 1 s_{1} s1​和概率 p ( s 1 ∣ s 0 , π ( s 0 ) ) \mathcal{p \left(s_{1} | s_0,\pi \left(s_0\right)\right)} p(s1​∣s0​,π(s0​))求得。作为参考,我们提出另一个贝尔曼方程: Q π ( s 0 , a 0 ) = E ( R ( s 1 , s 0 , a 0 ) + γ Q π ( s 1 , π ( s 1 ) ) )       ( 03 ) Q_{\pi}\left(s_{0}, a_{0}\right)=\mathbb{E}\biggl(R\left(s_{1}, s_{0}, a_{0}\right)+\gamma Q_{\pi}\left(s_{1}, \pi\left(s_{1}\right)\right)\biggr)   (03) Qπ​(s0​,a0​)=E(R(s1​,s0​,a0​)+γQπ​(s1​,π(s1​)))   (03) Q π ( s 0 , a 0 ) Q_{\pi}\left(s_{0}, a_{0}\right) Qπ​(s0​,a0​)是(expected cumulative discounted reward),从状态 s 0 s_{0} s

标签: mu视觉传感器目标跟随

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台