2016 李世石和年上半年 AlphaGo 人机战争掀起了一波人工智能浪潮,也引起了人们对人工智能的热烈讨论。本文主要研究人工智能中的强化学习。它是计算机通过试错学习和与环境互动获得的奖励在使计算机获得最大的奖励。
以围棋为例,强化学习问题通常包括以下因素:
- A,所有合法行动的集合,所有合法行动的集合。
- S;所有状态的集合称为状态空间,所有棋盘布局。
- R;胜利正奖励,输了负奖励。
- P。预测对手可能的落子点,给每种情况一个概率。
加强学习的目的是通过不断的学习找到解决问题的最佳步骤。这个最好的衡量标准是智能身体在执行一系列行动后获得的累积奖励。
马尔可夫决策过程(Markov Decision Processes,MDP)它是对强化学习中环境的正式描述,或对智能体所处环境的建模。在强化学习中,
“Frozen Lake游戏场景是一个结冰的湖(即 4×4 大小的方格),从一开始就要求Start走到目标点Goal”,且不能掉进冰窟窿里。
游戏有两种模式:风模式和无风模式。两种模式的区别在于,在风模式下,智能身体的运动会受到风的影响。例如,智能身体的当前位置是 S3.智能体选择向右走一步,智能体验在无风模式下达到 S4状态,在风模式下,智能体的位置不确定,可能被风吹到任何状态,如 S7。
在“Frozen Lake在游戏中,智能体从Start走到目标点Goal它需要通过一个序列的中间状态,但也需要根据策略做出一系列的行动。这种策略的优缺点通常是根据智能身体在执行一个序列后获得的累积奖励来判断的。累积的奖励越大,策略就越好。
计算累积奖励有两种方法,一种是计算从当前状态到结束状态的所有奖励之和:
Gt=rt 1 rt 2 ... rt T
适用于有限时间(Finite-horizon)强化学习,但在一些无限时间内(Finite-horizon)在这种情况下,智能身体可能需要执行一项长期的任务,如自动驾驶,如果使用上述计算累计奖励值显然是不合理的。
需要有限的值,通常会增加折扣因子,如下:
在上式中,0≤γ≤1 。当 γ 的值等于 0 智能体只考虑下一步的回报;当 γ 值越近 1.未来的奖励将被考虑得越多。需要注意的是,有时我们更关心当前的奖励,有时我们更关心未来的奖励。调整方法是修改 γ 的值。
首先简化Frozen Lake(无风模式),不考虑起点和终点,如图所示 1 所示。
简化的“Frozen Lake”游戏
右侧的状态转换图表示从每个状态转移到下一个状态的概率和相应的奖励。例如,在状态 S1 可转移到 S2 状态也可以转移到 S3 状态,或者不移动,留在 S1 状态的概率分别为 0.3、0.5 和 0.2.相应的奖励分别为 2、2 和 1。
随机过程 s0,s1,…,sn 中,已知时刻 ti 所处的状态 si, 例如图 1 例子,智能体从 S1 状态移动到 S3 在状态之后,下一个状态是什么? S1 无关,只看现在 S3 状态。这一特征称为随机过程(或无后效性)。马尔可夫性的随机过程 s0,s1,…,sn 叫马尔可夫链(Markov Chain)。
2. 马尔可夫回报过程(Markov Reward Process) 在最简单的情况下,每次执行一个动作后,都会确定下一个状态,所以只需要积累智能身体每一步获得的奖励。 然而,很多时候,状态是不确定的,比如Frozen Lake在游戏的风模式下,智能身体在执行一个动作后会以一定的概率转移到另一个状态,所以奖励也与这个概率有关。所以在计算累积奖励的时候,通常是计算奖励的期望,用 V 表示奖励期望,状态 s 期望奖励值表示:V(s)=E[Gt|St=s] 所以 Gt=rt 1 rt 2 ... rt T 可表示为以下形式:
考虑折扣因素的累积奖励第二个公式为:
3. 马尔可夫决策过程(Markov Decision Process) 在简化游戏 中只考虑Frozen Lake游戏的无风模式,因为在无风模式下,智能身体在执行一个动作后达到的下一个状态是确定的,所以只考虑状态的转移,而不考虑具体的动作。然而,在有风模式下,状态的转移概率因执行动作而异。 简化后的依然简化Frozen Lake如果游戏的例子是当前状态 S1.在有风模式下,状态转移概率如表 1 所示。
马尔可夫的决策过程是什么?我们将马尔可夫的决策过程定义为组:M=(S,A,R,P,γ)
- S:比如状态空间Frozen Lake在游戏中,总共有 16 个状态(Start,S2,…,S15,Goal);
- A:动作空间,在Frozen Lake在游戏中,每种状态下有四个动作可以执行(上、下、左、右);
- R:奖励函数,在一定状态下, St 下一步行动并转移到下一个状态 St 1.将获得相应的奖励 rt 1;
- P:状态转移规则可以理解为我们之前介绍的状态转移概率矩阵。在某种状态下 St 如果下一个动作被执行,它将以一定的概率转移到下一个状态 St 1。
综上所述,强化学习需要解决的问题是,智能体需要学习策略 π,这个策略 π 定义了从状态到动作的映射关系 π:S→A,也就是说,智能体处于任何状态 st 以下所能执行的动作 at=π(st),并且有
。 用价值 Vπ 衡量这个策略 π 好坏,价值 Vπ(st) 从状态代表智能体 st 一开始,遵循策略 π 的前提下执行一系列动作后获得的累积奖励的期望值(事实上,当策略 π 确定后,MDP 也确定了状态转移的概率,此时可以简单地看作是马尔可夫的回报过程,可采用求解马尔可夫回报过程的方法求解回报):
这里的价值是遵循策略 π 价值。
参考文章:
加强学习的基本概念(实例讲解)_Python教程网www.92python.com/view/409.html正在上传…重新上传取消
马尔可夫决策过程(MDP)_Python教程网www.92python.com/view/410.html正在上传…重新上传取消
加强学习(学习方法)_百度百科baike.baidu.com/item/强化学习/2971075fr=aladdin正在上传…重新上传取消
发布于 2021-05-17 23:12
马尔可夫决策过程(MDP)学习笔记(1) - 知乎
工种:微程序学校