深度学习的发展方向：深度强化学习！-锐单电子商城

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者：莫凡&马晶敏，上海交通大学

转载自：Datawhale

深度学习不够智能，强化学习太抽象。深度强化学习是两个理论体系乘风破浪的产物。它的骨架来自强化学习，灵魂来自深度学习。深度强化学习是一个值得持续研究和关注的新方向。

一、反思深度学习

现在深度学习很热，没有输给当前的室外温度，但热背后也有隐藏的担忧，虽然深度学习表面明亮，但仔细看会发现：仍然充满了槽点。

其中一个可谓直击灵魂。现在深度学习最常用的是监督学习。有监督的学习不妨理解为有参考答案的学习，它有一个特点，即数据必须经过识别才能用于训练。但现在大量的数据是未识别的数据，而且识别成本很高。许多研究人员，甚至包括许多大牛，都在反思深度学习是否错误。如果人工智能发展的正确途径是模拟人类智能，那么这种深度学习的学习模式可能会误入歧途。

例如，人类婴儿学会走路。婴儿学会走路当然不依赖于阅读大量的如何解锁行走姿势或人类直立行动和其他信息，用行话说，不需要依靠外部输入大量的训练数据。婴儿是怎么学的？通过不断的尝试，也就是我们常说的跌倒，爬起来再走。总之，这一学校的研究人员认为，深度学习与人类的学习模式完全不同。虽然现在很流行，但迟早会遇到天花板。该怎么办？很多人都指了同一个地方，就是深度强化学习。

二是加强学习原则

深度强化学习是乘风破浪后两套理论体系的产物。这两个系统最初是单飞运动员，即深度学习和强化学习。具体来说，深度强化学习的骨架来自强化学习，而灵魂是由深度学习赋予的。因此，要理解深度强化学习，首先要看强化学习。

2.1AlphaGo进化史

AlphaGo击败柯洁等国际顶尖棋手的事实使人们对人工智能技术的信心倍增。当年AlphaGo共迭代了三个版本，即战胜李世石的一代目标AlphaGo Lee、战胜柯洁二代目AlphaGo Master，以及前两代的三代目AlphaGo Zero。当然，这三代棋艺逐代增多，技术上也有明显的变化趋势，即强化学习的比例越来越大。

最开始训练AlphaGo模型需要借助现有棋谱，即需要参考答案，有监督学习。而当进化到了AlphaGo Zero，这哥们开始悟，是的，是真正意义上的悟，不再需要任何棋谱，完全自食其力，从零开始自学成才，所以名字叫Zero。亲爹DeepMind喜不自胜，跑到Nature发了一篇爆款论文，名字叫《Mastering the game of go without human knowledge》，看中文不妨翻译成《围棋灭霸》，反正意思是你们人类都是渣渣，我不需要人教就能称霸棋坛。这次真的不需要人教，靠什么自学？加强学习。AlphaGo Zero学习模式与人类非常相似，取得了无可争议的良好效果，真正让业内所有人真正感受到了强化学习的惊人潜力。

2.2加强学习基本概念

说了这么多，什么是强化学习？强化学习是机器学习之一。强化学习不同于监督学习和无监督学习。有一个智能身体（Agent）的概念。什么是智能体？每个人都应该玩过任天堂的经典FC马里奥兄弟，横版通关游戏。在游戏中，玩家通过控制马里奥的蘑菇和踩乌龟来获胜。如果他们想通过强化学习通关，这里的智能身体是指马里奥。

智力是强化学习的第一个重要概念，也是主角。然而，作为一部好戏，强化学习不仅要有主角，还要有舞台。这是强化学习的第二个重要概念和环境（Environment）。

加强学习的学习过程是作为主角和舞台环境不断互动的过程。这个过程包括观察三个重要概念（Observation）、动作（Action）和奖励（Reward）。这五个概念可以说是强化学习的五线谱，可以演奏出无数精彩动人的旋律。

那么，如何演奏智能体、环境、观察、动作和奖励这五个概念呢？

2.3 简单加强学习

第一条是主线。前面已经介绍过，强化学习的主线是作为主角的智能主体舞台环境的各种互动。互动过程衍生出三个概念，听起来很复杂。其实玩马里奥兄弟游戏很像，可以一对一比较。

回想起来，马里奥想在游戏中通关，第一步该怎么办？前进后退还是跳？都不对，首先要观察。在决定下一步行动之前，你必须先看看周围的环境，看看前面是蘑菇还是乌龟。只有观察环境，获取当前状态信息，才能决定下一步是否正确？强化学习也是如此。主角智能主体通过上述第三个重要概念观察获取当前时刻的各种状态信息，通常被记录为s(t)。

在掌握了状态信息后，游戏中的马里奥开始跃跃欲试，准备做出反应。加强学习也是如此，我们将s(t)智能体验作为智能体的输入，稍加思考，然后就能做出动作。这里的动作是前面介绍的第四个重要概念。智能体能做什么动作？这与具体场景有关。例如，在马里奥游戏中，动作是指顶蘑菇或踩乌龟，通常被记录为a(t)。

最后一个重要的概念是奖励。这很容易理解。我们一再强调，加强学习的主线是智能主体与环境之间的各种互动。现在，当智能主体采取行动时，环境必须表示必须有反馈信息，即奖励。比如马里奥游戏中，马里奥吃金币后，相应的游戏得分会增加，这就是奖励。需要说明一点，强化学习的“奖励”和我们日常所习惯的用法略有不同，强调的是环境对智能体的反馈。上面提到的分数增加是一个很好的反馈，当然也有不好的反馈，比如做什么动作被扣分，但无论是好反馈还是坏反馈，强化学习统一称为奖励。

到目前为止，智能身体已经完成了一轮强化学习。不断重复这一轮过程，智能身体可以顺利地与环境互动。听起来很简单吗？然而，魔鬼隐藏在细节中。

2.4加强学习方向分类

不知道大家在阅读的时候有没有注意到强化学习的一个非常重要的问题，但是上面有一笔。是的，是从获取s(t)到做出a(t)之间的稍微思考一下。作为输入状态信息，作为输出的待选动作，都是给定的，但是两者的映射关系是什么，也就是输入什么样的状态信息应该对应输出什么样的动作反应，也就是体。

这是加强学习的核心问题。有了问题，自然会产生各种各样的想象力。我们说，加强学习的五个概念就像五行谱，演奏着无数美妙的旋律，这绝对不是艺术的隐喻，而是事实。为了解决加强学习的核心问题，研究人员真正打开了无数的想象力。一般来说，他们主要朝着两个方向打开想象力。

第一个大方向是基于价值（Value-Based）加强学习。机器学习有一个目标函数的概念，而基于价值的强化学习，其目标函数是最大化累计奖励，即选择哪个动作可以使得分更高。这符合我们的直觉认知，更容易理解。那么如何实现这个目标呢？根据价值，不同的算法是不同的（Value-Based）在强化学习算法中，应该计算最著名的算法Q-Learning，也有人称之为Q学习，通过不断计算和更新动作价值函数Q来最大化奖励。

第二个大方向是基于战略（Policy-Based）加强学习。基于价值虽然符合直觉，但一步一步，每次使用价值函数行动，不可避免地让一个人有一种无头苍蝇无力，基于战略强化学习的最大特点是果断放弃价值函数，试图找到每个状态对应的最佳行动，形成一套行动策略，每一步策略都可以直接给出最佳的下一步行动。

当然，除了这两个方向，还有其他的想象力方向加强学习，比如基于模型（Model-Based）强化学习，但由于成本和难度高，使用较少。这两个方向都包含了大量的具体实现算法。即使方向相同，每个算法在细节上仍然存在很大差异。

三、深度学习与强化学习相结合

最后一个问题是，深度学习如何与强化学习相结合，成为深度强化学习？

我们前面说过，深度强化学习，强化学习是骨架，深度学习是灵魂，这是什么意思？事实上，深度强化学习的主要运行机制与强化学习基本相同，并基于输入s(t)，找到相应的输出a(t)，只是使用深度神经网络来完成这个过程。

更重要的是，一些深度强化学习算法只是直接在现成的强化学习算法中，通过添加深度神经网络来实现一套新的深度强化学习算法，以深度强化学习算法而闻名DQN典型的例子。

我们介绍了基于价值的强化学习算法Q-Learning计算Q值的一个重要步骤是传统的Q-Learning通过Q表计算算算算算法，但表格有明显的局限性，状态-动作空间越大，Q表越膨胀，大一点就膨胀几圈。这样下去是不可能的。迟早会在河边看到的……

那么如何改进呢？研究人员认为，现在流行的深度神经网络不是最擅长这样做的吗？所以拍拍大腿，不再需要你的老人来记录Q值，都变成了深度神经网络，这就是DQN。虽然听起来变化不大，但两者的结合效果很好，能力明显提高，实现了广泛使用的深度强化学习算法。

好消息！

小白学视觉知识星球

开始面向外开放啦👇👇👇

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

资讯详情

深度学习的发展方向：深度强化学习！

详细介绍电流互感器功能区别3CT SR ZCT

深度学习的发展方向： 深度强化学习！

详细介绍电流互感器功能区别3CT SR ZCT

最近热搜

历史搜索 清除历史记录

深度学习的发展方向：深度强化学习！

历史搜索清除历史记录