资讯详情

论文翻译 —— Deep Reinforcement Learning from Human Preferences

  • 标题:Deep Reinforcement Learning from Human Preferences
  • 文章链接:Deep Reinforcement Learning from Human Preferences
  • blogpost: Learning from Human Preferences
  • 文章解读:论文理解 —— Deep Reinforcement Learning from Human Preferences
  • 发表:NIPS 2017
  • 领域:模仿学习 —— 逆强化学习

文章目录

  • 1. Introduction
    • 1.1 Related Work
  • 2. 准备工作和方法
    • 2.1 设置和目标
    • 2.2 Our Method
      • 2.2.1 Optimizing the Policy
      • 2.2.2 Preference Elicitation(诱导偏好)
      • 2.2.3 Fitting the Reward Function
      • 2.2.4 Selecting Queries
  • 3. Experimental Results
    • 3.1 Reinforcement Learning Tasks with Unobserved Rewards
      • 3.1.1 Simulated Robotics
      • 3.1.2 Atari
    • 3.2 Novel behaviors
    • 3.3 Ablation Studies
  • 4. Discussion and Conclusions
  • A Experimental Details
    • A.1 Simulated Robotics Tasks
    • A.2 Atari
  • 句子摘抄

  • :为了使复杂的强化学习 (RL) 为了有效地与现实世界环境交互,我们需要向这些系统传达复杂的目标。在这项工作中,我们探索了一种新的目标传达方式:。我们说明了这种方法,这大大降低了人工监督的成本,可以实际应用于最先进的监督 RL 系统。为了证明我们方法的灵活性,我们表明,我们可以在大约一个小时的劳动力时间内成功地训练复杂的新行为与过去从人类反馈中学习的工作相比,我们关注的行为和环境要复杂得多

1. Introduction

  • 最近,我们成功地将加强学习扩展到大问题,但这些结果是在具有明确指定奖励函数的情况下获得的 (Mnih et al. , 2015, 2016; Silver et al. , 2016年)。不幸的是,。克服这一限制将大大扩大深度,加强学习的影响,并将机器学习扩展到更广泛的领域

  • 例如,如果我们想使用强化学习来训练机器人清洁桌子或炸鸡蛋,我们不知道如何构建一个关于机器人传感器测量变量的函数作为适当的奖励函数。我们可以尝试设计一个简单的奖励函数来类似于捕捉预期的行为,但这往往会导致我们所学到的行为实际上不符合我们的偏好。最近,这种困难导致了正确 “RL系统目标与我们的价值偏好不一致 的担忧 (Bostrom, 2014; Russell, 2016; Amodei et al., 2016)。 解决这些问题将是一个重要的步骤

  • 如果我们有演示所需任务,我们可以使用逆强化学习(Ng 和 Russell,2000)提取奖励函数。然后,这个奖励函数可以用来训练有强化学习的代理商。更直接地说,我们可以直接克隆显示的行为。(例如,控制具有许多自由度的非人类机器人)

  • 另一种方法是。原则上,这符合强化学习的范式,但对于需要数百或数千小时经验的RL就系统而言,直接使用人类反馈作为奖励函数。为际训练有人反馈的深度RL在系统中,我们需要减少所需反馈的数量级

  • 我们的方法是从人类专家的反馈中学习奖励函数,然后优化奖励函数。这种基本方法以前被考虑过,但我们面临着将其扩展到现代深度 RL 挑战展示了迄今为止从人类反馈中学到的最复杂的行为。简而言之,我们希望在没有明确奖励函数的情况下解决顺序决策问题,

    1. 能够解决人类 ,但演示任务提供演示任务
    2. 允许 进行示教
    3. 可扩展到大规模问题
    4. 反馈成本不高(即教学成本低)
  • (见图 1)。我们要求。我们发现,在某些领域,比较agent性能对人类来说更容易,对学习人类偏好也更有用。比较轨迹片段几乎和单个状态一样快,但我们表明比较轨迹片段显然更有帮助。此外,我们还表明 在这里插入图片描述

    • 图 1:方法示意图:奖励预测器利用(非专家)人员对轨道段进行异步训练,同时 agent 预期回报应最大化
  • 我们在两个环境行实验:

    1. Arcade 在学习环境中 Atari 游戏(Belle mare 等人,2013 年)
    2. 物理模拟器 MuJoCo 机器人任务(Todorov 等人,2012 年)

    我们表明,即使没有奖励函数,少量来自非专家的反馈(从 15 分钟到 5 小时不等也足以学习大部分原始 RL 任务。然后我们考虑在这些环境中执行一些特殊的行为,如空翻车或随车流行驶。我们表明,即使我们不知道如何手动设计奖励函数来指导这些行为,我们的算法也可以从大约一个小时的人类反馈中学习

1.1 Related Work

  • 许多工作研究利用人类给出的评级或排名来加强学习, including Akrour et al. (2011), Pilarski et al. (2011), Akrour et al. (2012), Wilson et al. (2012), Sugiyama et al. (2012), Wirth and Fürnkranz (2013), Daniel et al. (2015), El Asri et al. (2016), Wang et al. (2016), and Wirth et al. (2016).

    其他研究方向考虑了利用偏好而不是绝对奖励来加强学习的一般问题(Fürnkranz等人,2012年;Akrour等人,2014年)

    利用人类偏好优化强化学习以外的环境(Machwe和Parmee,2006年;Secretan等人,2008年;Brochu等人,2010年;S?rensen等人,2016年)

  • 遵循和遵循我们的算法Akrour等人(2012年) Akrour等人(2014年)的基本方法相同。他们考虑有四个自由度和小离散域的连续域,假设手工编码的奖励期望是线性的。不同的是,我们考虑了几十个自由的物理任务,没有手工特征 Atari 任务;环境的复杂性迫使我们使用不同的任务RL处理不同的算法和奖励模型 tradeoffs。一个显著的区别是,Akrour等人(2012年)Akrour等人(2014年)对整个轨迹而不是轨迹片段收集偏好。。另一个主要差异是,

  • 我们的反馈启发方法与Wilson等人(2012)的做法密切相关。然而,Wilson等人(2012)假设奖励函数是到某个未知 “目标” 策略的距离(其本身是关于手动编码特征的线性函数)。他们使用贝叶斯推断来拟合这个奖励函数,而不是执行RL,他们使用目标策略的MAP估计来生成轨迹。他们的实验涉及从他们的贝叶斯模型中提取的 “合成” 人类反馈,而我们使用从非专家用户收集的反馈进行实验。目前尚不清楚Wilson et al(2012)中的方法是否可以扩展到复杂任务,或者它们是否可以与真实的人类反馈一起工作

  • MacGlashan等人(2017年)、Pilarski等人(2011年)、Knox和Stone(2009年)以及Knox(2012年)进行了涉及利用实际人类反馈进行强化学习的实验,尽管他们的方法不太相似。在MacGlashan等人(2017年)和Pilarski等人(2011年)中,学习只发生在训练人员提供反馈的情况下。这在如雅达利游戏等领域似乎是不可行的,为了在这些环境中学习一个高质量的策略,即使是最我们考虑的简单任务也需要提供数千小时的经验,这是非常昂贵的。TAMER(KNOX,2012;KNOX和Stand,2013)方法也致力于学习奖励函数,但是他们考虑了更为简单的设置,可以较快地学习所需的策略

  • 我们的工作还可以视为合作逆强化学习框架 cooperative inverse reinforcement learning framework(Hadfield Menell等人,2016)的具体实例。该框架考虑了环境中人与机器人之间的两人博弈,目的是最大化人的奖励函数。在我们的设置中,人类只能通过陈述他们的偏好来与游戏互动

  • 与之前的所有工作相比,。这符合将奖励学习方法扩展到大型深度学习系统的最新趋势,例如逆强化学习(Finn等人,2016年)、模仿学习(Ho和Ermon,2016年;Stadie等人,2017年)、semi-supervised skill generalization(Finn等人,2017年)和 bootstrapping RL from demonstrations(Silver等人,2016年;Hester等人,2017年)

2. 准备工作和方法

2.1 设置和目标

  • 我们考虑通过一系列步骤与环境交互的代理:在每个时刻 t t t,代理从环境中接收到一个观测 o t ∈ O o_t \in \mathcal{O} ot​∈O,然后向环境发送一个动作 a t ∈ A a_t \in \mathcal{A} at​∈A

  • 在传统的强化学习中,环境会提供奖励 r t ∈ R r_t\in \mathbb{R} rt​∈R,而 agent 的目标是最大化累计折扣奖励。我们假设环境不能会产生奖励信号,取而代之的是有一个人可以表达轨迹片段之间的偏好。轨迹片段是观察和动作组成的序列 σ = ( ( o 0 , a 0 ) , ( o 1 , a 1 ) , . . . , ( o k − 1 , a k − 1 ) ) ∈ ( O × A ) k \sigma = \big((o_0,a_0),(o_1,a_1),...,(o_{k-1},a_{k-1})\big) \in (\mathcal{O\times A})^k σ=((o0​,a0​),(o1​,a1​),...,(ok−1​,ak−1​))∈(O×A)k。用符号 σ 1 ≻ σ 2 \sigma^1 \succ \sigma^2 σ1≻σ2 表示人类相比轨迹段 σ 2 \sigma^2 σ2 更偏好轨迹段 σ 1 \sigma^1 σ1。

  • 更准确地说,我们将从两个方面评估算法的行为:

    1. :我们说偏好 ≻ \succ ≻ 是由奖励函数 r : O × A → R r:\mathcal{O\times A} \to \mathbb{R} r:O×A→R 产生的,当 ∑ i = 1 k − 1 r ( o i 1 , a i 1 ) > ∑ i = 1 k − 1 r ( o i 2 , a i 2 ) \sum_{i=1}^{k-1}r(o_i^1,a_i^1) > \sum_{i=1}^{k-1}r(o_i^2,a_i^2) i=1∑k−1​r(oi1​,ai1​)>i=1∑k−1​r(oi2​,ai2​) 时,有 ( ( o 0 1 , a 0 1 ) , . . . , ( o k − 1 1 , a k − 1 1 ) ) ≻ ( ( o 0 2 , a 0 2 ) , . . . , ( o k − 1 2 , a k − 1 2 ) ) \big((o_0^1,a_0^1),...,(o_{k-1}^1,a_{k-1}^1)\big) \succ \big((o_0^2,a_0^2),...,(o_{k-1}^2,a_{k-1}^2)\big) ((o01​,a01​),...,(ok−11​,ak−11​))≻((o02​,a02​),...,(ok−12​,ak−12​)) 如果人类的偏好是由一个奖励函数 r r r 产生的,那么我们的代理应该在 r r r 下得到一个高的总奖励。因此,如果我们知道报酬函数 r r r,我们就可以定量地评估代理人。
      • 注:在这里,我们假设奖励是关于观察和动作的函数。在 Atari 环境中的实验中,我们假设奖励是前面 4 次观察的函数。在一般的部分可观测的环境中,我们可以考虑依赖于整个观测序列的奖励函数,并用循环神经网络对该奖励函数进行建模
    2. :有时我们没有定量地评估行为所需的奖励函数(在这种情况下,我们的方法也依然 work)。在这些情况下,我们所能做的就是。在本文中,我们将从一个用自然语言表达的目标开始,展示代理试图实现该目标的轨迹片段视频,然后让一个评估人员根据 agent 完成该目标的程度来评估代理的行为
  • 我们基于轨迹片段比较的模型与 Wilson et al.(2012)中使用的轨迹偏好查询非常相似,。这使得解释人类的比较结果变得更为复杂,但我们表明,即使人类评分员不了解我们的算法,我们的算法也克服了这一困难

    • 注:Wilson等人(2012年)还假设有能力对合理的初始状态进行采样。但是我们使用的是高维状态空间,对于这些高维状态空间,随机状态是不可到达的,并且预期的策略位于低维流形中

2.2 Our Method

  • 在每个时间点,我们的方法都维护一个策略 π : O → A \pi: \mathcal{O}\to \mathcal{A} π:O→A 和一个报酬函数估计 r ~ : O × A → R \tilde{r}:\mathcal{O\times A}\to \mathbb{R} r~:O×A→R ,这二者都由深层神经网络进行参数化

  • 这些网络通过三个过程进行更新:

    1. 策略 π \pi π 与环境相互作用产生一组轨迹 { τ 1 , τ 2 , . . . , τ i } \{\tau^1,\tau^2,...,\tau^i\} { τ1,τ2,...,τi}。 π \pi π 的参数通过传统的 RL 算法进行更新,以最大化预测奖励 r t = r ^ ( o t , a t ) r_t = \hat{r}(o_t,a_t) rt​=r^(ot​,at​) 的总和
    2. 我们从第一步产生的轨迹 { τ 1 , τ 2 , . . . , τ i } \{\tau^1,\tau^2,...,\tau^i\} { τ1,τ2,...,τi} 中选择成对的轨迹片段 ( σ 1 , σ 2 ) (\sigma^1,\sigma^2) (σ1,σ2) ,并将其发送给人类进行比较
    3. 映射 r ^ \hat{r} r^ 的参数通过监督学习进行优化,以适应迄今为止收集的人类比较

    这些过程是

    1. 轨迹从流程(1)流向流程(2)
    2. 比较偏好数据从流程(2)流向流程(3)
    3. r ^ \hat{r} r^ 的参数从流程(3)流向流程(1)

    以下各小节提供了这些过程的详细信息

2.2.1 Optimizing the Policy

  • 在使用 r ^ \hat{r} r^ 算出奖励后,就只剩下一个传统的强化学习问题,我们可以使用任何适合该领域的RL算法来解决它。一个微妙之处是,(就是可能随时间变化),所以。这导致我们将重点放在 算法上,该方法已成功应用于此类问题 (Ho and Ermon, 2016)
  • 在本文中,我们使用 advantage actor critic (A2C; Mnih et al., 2016) 方法来玩Atari游戏,并使用 trust region policy optimization (TRPO; Schulman et al., 2015) 来执行模拟机器人任务。每种情况下,我们都使用已知对传统的RL任务很有效的参数设置,
  • 。这是一个典型的预处理步骤,在这里特别合适,因为奖励的位置是由我们的学习问题决定的

2.2.2 Preference Elicitation(偏好诱导)

锐单商城 - 一站式电子元器件采购平台