在这里插入图片描述

论文下载 & 官方Blog
关于AC算法
- 除了传统的强化学习外，传统的强化学习value-based另一大类是方法policy-based方法。在RL在任务中，我们最终要学习的是策略（Policy）。前者采用间接方法，即通过学习值函数（value function）或动作值函数（action-value function）来得到policy。后者是直接对的policy因此，后者也被称为建模和学习policy optimization。Policy-based方法可分为两类：gradient-based方法和gradient-free方法。前者也称为policy gradient（PG）方法。而policy gradient方法可以细分为几类，如finite difference，Monte-Carlo和Actor-Critic等。
- Actor-Critic（AC）方法其实是policy-based和value-based从名字上看，方法的组合包括演员/执行者两部分(Actor)和评价者(Critic)。在AC框架中，actor使用策略函数生成动作(Action)和环境互动critic使用价值函数进行评估Actor并指导表现Actor下一阶段的动作。一方面可以看actor战略更新依赖于学习策略critic估计的value function；另一方面critic估计value function，而value function也是策略函数。Policy和value function相互依赖，相互影响，需要在训练过程中迭代优化。事实上，这种多元优化的迭代思想体现在机器学习中。
on-policy和off-policy的区别、on-policy和off-policy的解释
- sutton的《introduction to reinforcement Learning》中写道：
  
  On-policy methods attempt to evaluate or improve the policy that is used to make decisions, whereas off-policy methods evaluate or improve a policy different from that used to generate the data. 同策（ on-policy）：评估和优化策略与决策策略一致；异策（off-policy）：进行评估和优化的策略与产生数据的策略不一致。
- 典型的异策算法有：DQN族、DDPG族、SAC等等，包括经验回放（experience replay）是的，可以说是不同的策略算法。因为在更新策略时，将从经验回放中提取数据来更新当前的策略，这些数据是由以前的策略生成的，也就是说，生成数据的策略不同于当前的更新策略，即off-policy。典型的同策算法有：原始AC、REINFORCE、A3C等等，这些算法需要用当前的策略来更新trajectory，然后用这个trajectory数据更新当前策略，即on-policy。
参考资料 Wayve技术解析、微信公众号_新智元、知乎模型输入单目摄像头的视觉图像，输出是车辆的转角和速度命令DDPG算法。先在simulation环境训练的目的是找到网络结构和超参数，使完成任务的训练数据尽可能少。这些网络结构和参数沿用于实车训练。发现用vae loss作为state representation提高稳定性和数据使用效率(using an auto-encoder reconstruction loss significantly improved stability and data-efficiency of training)。

论文翻译：学会一天开车

摘要
一、介绍
二、相关工作
- a）地图法
- b）模仿学习
- c）强化学习
三、系统架构
- A.将驾驶转化为马尔可夫决策过程
- - a）状态空间
  - b）动作空间
  - c）回报函数
- B.加强学习算法–DDPG（Deep Deterministic Policy Gradients）
- C.基于任务的训练结构
四、实验
- A.仿真
- B.实车训练
五、讨论

摘要

我们演示了自动驾驶深度强化学习（autonomous driving）第一次应用。通过随机初始化参数，我们的模型可以使用单目图像作为输入，只使用少量的训练场景（training episodes）学习车道跟踪（lane following）策略。我们设置了一个常见且容易获得的设置回报（reward）：车辆的行驶距离没有安全驾驶员的控制。我们使用连续的、无模型的深度强化学习算法来探索和优化车辆。展示了自动驾驶的新框架，该框架不再依赖于定义逻辑规则、高精度地图和方向监控（defined logical rules, mapping, and direct supervision）。最后，我们讨论了将这种方法扩展到更广泛的自动驾驶任务中的挑战和机遇。

一、介绍

由于自动驾驶技术可能从根本上改变旅行和交通方式，它引起了研究和公司的广泛关注。一般来说，对数据的处理大多集中在形式逻辑上（formal logic）上，即带注释的3D驾驶行为在几何图中定义。很难推广(其他场景)，因为它严重依赖于外部基础设备的映射（external mapping infrastructure），而不是关注对当地场景的理解（understanding of the local scene）。基于地图的缺陷. 为了使自动驾驶成为一种常见的技术，我们提倡使用没有地图和明确规则的机器人系统来驾驶和巡航，就像人类一样，依靠对实时环境的全面理解[1]，遵循简单的高维方向（while following simple higher level directions）(例如转向路径规划)。该领域的最新工作表明，使用GPS粗略定位和使用LIDAR了解当地场景，可以在农村道路上实现(自动驾驶)[2]。引入机器人系统强化学习是机器学习的一个子领域，主要用于解决马尔可夫决策问题（Markov Decision Problems）（MDP）[3]，即最大化回报函数（reward function），在特定的环境中选择某种行为（select actions）。近些年来，RL在游戏中表现出超越人类的能力，比如围棋[4]和国际象棋[5]，在计算机游戏[6]等虚拟环境中，在使用机械手[7]进行简单任务时，潜力巨大。我们认为，强化学习的普遍性使其成为适用于自动驾驶的一种有效的框架。最重要的是，它提供了一种纠正机制(corrective mechanism学习自动驾驶。引入强化学习最后，我们在这里本文做了以下工作：

将自动驾驶视为马尔可夫的决策问题，并解释如何设计这个问题的参数（various elements）使其更容易解决，同时保持其通用性和可扩展性。
展示一种经典RL算法-DDPG（deep deterministic policy gradients）[8]可以在虚拟环境中快速学习简单的自动驾驶任务。
加强加强学习（RL）在现实世界中控制车辆高效安全驾驶，讨论了他需要的系统设置（system set-up）。
仅使用车载计算（on-board computation），学习算法通过少量场景学习驾驶现实世界的汽车。图1：我们设计了一种用于自动驾驶的深度强化学习算法。此图展示的是Actor-Critic算法，我们用它来学习驾驶的策略（policy）和值函数（value function）。我们设置一个回报（reward），即安全驾驶员干预之前车子行驶的距离，我们将最大限度的提高这个回报值。这个网站https://wayve.ai/blog/l2diad可以观看我们的小车学会自动驾驶的视频。

二、相关工作

　　我们认为这是第一次表明深度强化学习运用于自动驾驶是一种有效的方法。我们看中他（RL）具有超越模仿学习的潜力，因此我们希望研究界从强化学习的角度更仔细地研究自动驾驶。当前文献中（和RL）最相近的工作主要可以归类为模仿学习（imitation learning）和基于地图的经典方法（classical approaches relying on mapping）。

a）地图法

　　自早期的例子[9],[10]以来，自动驾驶汽车系统已被设计为借助灵敏的感知（advanced sensing）和控制算法（control algorithms）在复杂环境中安全行驶[11],[12],[13]。传统上，这些系统由许多独特的组件（components）构成，例如感知(perception、状态估计(state estimation、映射（mapping）、计划（planning）和控制（control）[14]。但是，由于每个组件都需要单独指定和调整，而且组件之间存在复杂的相互依赖关系，导致很难将其扩展到一些更复杂的驾驶场景中去。　　对于这种模块化方法（modular approach），很多注意力投向了计算机视觉组件。论文[15]中的定位技术有助于在地图化的环境（mapped environment）中控制车辆[16]，而感知方法（例如语义分段[1]）使机器人可以解释场景。这些模块化任务得到了像[17]、[18]这样的基准论文的支撑。　　这些模块化映射方法（modular mapping approaches）在很大程度上是商业上开发自动驾驶系统的重点。但是这种方法也提出了极其复杂的系统工程挑战，尚未解决。

b）模仿学习

　　最近的一种用来解决自动驾驶任务的方法是模仿学习[19],[20]，其目的是通过观察专家的示范（expert demonstrations）来学习控制策略。这种方法的一个重要优点是，它可以使用端到端深度学习，针对最终目标共同优化模型的所有参数（parameters），从而减少了调整每个组件（component）的工作量。但是模仿学习在扩展（scale）上也存在挑战。无法获得专家实例来模仿可能遇到的每一种潜在情况，并且在处理演示策略的分发（distributions of demonstrated policies）的问题上也存在挑战（例如：在多条车道上行驶）。

c）强化学习

强化学习是解决马尔可夫决策问题（MDP）[21]的一类广泛的算法。一个MDP包括：

集合 S \mathcal{S} S表示状态（states）。
集合 A \mathcal{A} A表示动作（actions）。
一个转移概率函数（transition probability function） p ： S × A → P ( S ) \mathcal{p}：\mathcal{S} \times \mathcal{A} \to \mathcal{P \left(S\right) } p：S×A→P(S)，它为每对 ( s , a ) ∈ S × A \mathcal {\left(s,a\right) \in S\times A} (s,a)∈S×A分配一个概率分布 p ( ⋅ ∣ s , a ) \mathcal{p \left(\cdot | s,a\right)} p(⋅∣s,a)，该概率分布(probability distribution)表示：发生动作 a \mathcal{a} a使得状态 s \mathcal{s} s到另一种状态的概率。
一个回报函数（reward function） R ： S × S × A → R \mathit{R}：\mathcal{S} \times \mathcal{S} \times \mathcal{A} \to \mathbb{R} R：S×S×A→R，回报 R ( s t + 1 , s t , a t ) \mathit{R \left(s_{t+1},s_t,a_t \right)} R(st+1,st,at)表示：发生动作 a t \mathcal{a_t} at使得从状态 s t \mathcal{s_t} st到状态 s t + 1 \mathcal{s_{t+1}} st+1的回报。
一个面向未来的惩罚因子（future discount factor） γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ∈[0,1]，代表我们对未来回报（future rewards）的关心程度。

　　MDP的解决办法是策略（policy） π : S → A \pi:\mathcal{S}\to\mathcal{A} π:S→A，即对于每一个 s 0 ∈ S s_0 \in \mathcal{S} s0∈S最大化： V π ( s 0 ) = E ( ∑ t = 0 ∞ γ t R ( s t + 1 , s t , π ( s t ) ) ) 　　　　　　　 ( 01 ) V_{\pi}\left(s_{0}\right)=\mathbb{E}\left(\sum_{t=0}^{\infty} \gamma^{t} R\left(s_{t+1}, s_{t}, \pi\left(s_{t}\right)\right)\right)　　　　　　　(01) Vπ(s0)=E(t=0∑∞γtR(st+1,st,π(st)))　　　　　　　(01)期望 E \mathbb{E} E由状态 s t + 1 s_{t+1} st+1和概率 p ( s t + 1 ∣ s t , π ( s t ) ) \mathcal{p \left(s_{t+1} | s_t,\pi \left(s_t\right)\right)} p(st+1∣st,π(st))求得（expectation is taken over states s t + 1 s_{t+1} st+1 sampled according to p ( s t + 1 ∣ s t , π ( s t ) ) \mathcal{p \left(s_{t+1} | s_t,\pi \left(s_t\right)\right)} p(st+1∣st,π(st))）。　　在我们的设置中，我们用有限的时间范围 T T T来替代上式中的无穷大 ∞ \infty ∞。这等同于到达某一状态就会结束，即终止状态无法避免并且在该状态下的任何动作都将获得零回报。　　将上面的方程重新整理为递归形式（recurrent form），我们得到两个贝尔曼方程之一： V π ( s 0 ) = E ( R ( s 1 , s 0 , π ( s 0 ) ) + γ V π ( s 1 ) ) 　　　　　　 ( 02 ) V_{\pi}\left(s_{0}\right)=\mathbb{E}\biggl(R\left(s_{1}, s_{0}, \pi\left(s_{0}\right)\right)+\gamma V_{\pi}\left(s_{1}\right)\biggr)　　　　　　(02) Vπ(s0)=E(R(s1,s0,π(s0))+γVπ(s1))　　　　　　(02)上式的期望 E \mathbb{E} E由状态 s 1 s_{1} s1和概率 p ( s 1 ∣ s 0 , π ( s 0 ) ) \mathcal{p \left(s_{1} | s_0,\pi \left(s_0\right)\right)} p(s1∣s0,π(s0))求得。作为参考，我们提出另一个贝尔曼方程： Q π ( s 0 , a 0 ) = E ( R ( s 1 , s 0 , a 0 ) + γ Q π ( s 1 , π ( s 1 ) ) ) 　　　 ( 03 ) Q_{\pi}\left(s_{0}, a_{0}\right)=\mathbb{E}\biggl(R\left(s_{1}, s_{0}, a_{0}\right)+\gamma Q_{\pi}\left(s_{1}, \pi\left(s_{1}\right)\right)\biggr)　　　(03) Qπ(s0,a0)=E(R(s1,s0,a0)+γQπ(s1,π(s1)))　　　(03) Q π ( s 0 , a 0 ) Q_{\pi}\left(s_{0}, a_{0}\right) Qπ(s0,a0)是累积折损回报的期望（expected cumulative discounted reward），从状态 s 0 s_{0} s

标签： mu视觉传感器目标跟随

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

【论文阅读】Learning to Drive in a Day

论文翻译：学会一天开车

摘要

一、介绍

二、相关工作

a）地图法

b）模仿学习

c）强化学习

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

【论文阅读】Learning to Drive in a Day

论文翻译：学会一天开车

摘要

一、介绍

二、相关工作

a）地图法

b）模仿学习

c）强化学习

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录