说到人工智能应用,你会怎么想?人脸识别、无人驾驶、智能推荐……
让我们来谈谈人工智能任务的类型和你可能想不到的深度强化学习。
可分为人工智能任务类型[1]
预测任务主要是根据输入的数据预测相应的输出,或生成一些有价值的数据实例,它们对应于机器学习中的监督学习和无监督学习系统。上述人脸识别是一项预测任务。
在动态环境在动态环境中采取行动或决策。与预测任务不同,决策任务不是训练模型(Model)、输出结果的目的是通过智能身体(Agent)与环境互动,收集外部反馈,改变自己的状态,然后根据自己的状态决定下一个行动,继续收集反馈循环,不断获得奖励值,从而学习实现目标的最佳策略。
加强学习系统基本结构(图源:参考资料[2]
机器学习领域的一大核心主题是序列决策。该任务是在不确定的环境中根据经验决定所要执行的动作序列。序列决策任务涵盖广泛,有望对很多领域产生影响,比如机器人、医疗保健、智能电网、金融、自动驾驶汽车等等。
强化学习可以解决序列问题。
深度加强学习(Deep Reinforcement Learning,DRL)是指结合深度学习感知能力和强化学习决策能力的新机器学习算法。
其主要利用深度神经网络进行价值函数和策略近似,从而使强化学习算法能够以端到端的方式解决复杂问题。[3]
为人工智能实现真正的“智能”提供效果良好的实践路径。
端到端深度强化学习示意(图源:http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf)
2013年,谷歌DeepMind 团队创造性地提出了深度Q网络(Deep Q-Network,DQN)算法,通过深度强化学习,Atari 2600中2D视频游戏作为一种实验环境,在大多数游戏中都超越了人类玩家。
此后,市场上涌现出许多优秀的应用,如颠覆围棋界AlphaGo,让无数用户沉浸在抖音、淘宝等推荐算法中,战胜专业玩家的游戏AI 、通过模仿和加强学习来提高驾驶能力Wayve自动驾驶平台……与传统方法相比,机器学习效果有了质的飞跃,打开了人工智能的潘多拉魔盒。
目前,游戏AI、无人驾驶、交通灯调度、在线叫车订单、组合优化、推荐搜索系统、数据中心节能优化、对话系统、机器人控制、路由选择、军事场景深入加强学习和应用。
深度学习和强化学习各有特点,结合两者会带来变化:[1]
● 价值函数和策略已成为深度神经网络;
●参数空间相当高维;
●训练难度大;
●过拟合容易;
●需要大量数据;
●需要高性能计算;
●CPU(收集经验数据)和GPU(用于训练神经网络)之间的平衡。
OpenDataLab经典深度强化学习数据集已上架——Atari 2600 Video Pinball,并提供整齐的数据集信息,流畅的下载速度,欢迎您体验。
Atari 2600 Video Pinball数据集预览(图源:OpenDataLab)
Atari 2600是Atari该公司于1977年发布了视频游戏。它包含了一系列流行的游戏,如Breakout,Ms. Pacman 和Space Invaders。[4]
自从2013年Mnih等人提出了DQN算法后,Atari 2600已成为测试新强化学习算法的标准环境。Atari 2600高清视频输入(尺寸210 x 160,频率为60 Hz)以及游戏之间的任务差异,它一直是一个具有挑战性的测试平台。
Atari 2600环境最初是通过的Arcade学习环境(ALE)提供的。OpenAI Gym为了创建更标准化的界面,包装这些环境。OpenAI Gym提供59种Atari 2600游戏作为环境。研究人员普遍认为雅达利利 2600 一系列估的系列游戏 RL 一个很好的表现基准,因为每一款游戏都足以代表一个实际的挑战,而整个系列包含了很多品种,提供了足够的多样化。
可以通过OpenAI Gym框架中的Arcade学习环境来复制Atari 2600游戏环境。
· 开源地址:
https://www.endtoend.ai/envs/gym/atari/
· 数据集地址:
https://opendatalab.com/Atari_2600_Video_Pinball
[1]https://www.bilibili.com/video/BV1mC4y1H75i?spm_id_from=333.337.search-card.all.click
[2]郭勤. 视频游戏决策模型的研究游戏决策模型研究与应用[D].2018年江西理工大学.
[3]尹舸帆. 深入加强学习中探索问题的研究和实现[D].2021年北京邮电大学.
[4]http://turingai.ia.ac.cn/app/detail/14