深度强化学习继续死磕电子游戏还是另辟蹊径？

发布时间：2020-01-12 08:39:39 所属栏目：通讯来源：网络整理

导读：深度强化学习继续死磕电子游戏还是另辟蹊径？

很多人都误认为深度强化学习是实现通用人工智能的下一个创举，甚至谷歌也「过分热情」地花了5亿多美元收购 DeepMind，希望把人工智能提升到一个新的水平。与此同时，AI 社区似乎也把深度强化学习当成了圣杯，因为它是在某种程度上与我们所处的世界最接近的机器学习形式，尽管实际上还相差甚远。

我们最终实现的不过是一些「小把戏」，这些智能体也不过是可以玩各种各样的电子游戏、棋类游戏的小 AI 玩具。

从更传统的机器学习方法向深度学习转变的主要好处是，不再需要手动的工程设计。理论上，你可以给模型提供一堆数据，运行优化算法，它不需要你手动编写特征提取代码也能进行学习。因此，深度学习已经被应用到部分强化学习中，主要体现在智能体以像素的形式接收感知数据的部分，但是仍然需要研究者花大部分时间来手动设计程序。

这在我看来，深度学习并没有发挥什么作用！我甚至没有具体讨论其他深度强化学习问题，比如如果你需要稍微调整一下目标，那么你就要准备好重新训练整个系统，以及环境中的细微变化通常也会导致整个系统彻底失败，等等。通往通用人工智能的路还很长……

现在DeepMind 和 OpenAI 这样顶尖的机器学习研究机构，仍然在深度强化学习研究上投入主要的时间和资源。他们不断地用发布公关新闻轰炸互联网，展示他们正在取得的巨大进步：深度强化学习系统可以下围棋，玩 StarCraft、Dota 2，玩魔方等等。

我很困惑，为什么他们继续花那么多时间来开发有明确的定义规则和得分的系统、能在游戏中获胜的深度强化学习系统？

我相信现在每个人都明白，如果有足够多的时间、金钱和计算机来机械地训练每一个可能的动作，深度强化学习系统几乎可以在任何游戏中获胜。我认为他们大部分的策略仅仅是用一些「小把戏」来不断制造公关效应，以展示最新的深度强化学习系统如何在下一个最佳游戏中大获全胜，这样他们就可以继续从那些不太「懂行」的人那里获得投资，比如微软最近给 OpenAI 的投了10亿美元，谷歌则继续作为 DeepMind 的「存钱罐」给其投入资金。

DeepMind 最近，也就是在被谷歌收购5年后的一个成功案例是，他们训练了一个深度强化学习的智能体来下围棋、国际象棋、将棋和玩 Atari 游戏。是的，更多的电子游戏！！！

我的本意并不是抨击他们，我真的很高兴他们仍然在为实现通用人工智能贡献力量。但问题是，他们制造了很多错误的认知，并最终导致大量的人力物力浪费在「死胡同」上。

首先，他们发布的所有公关言论，比如「我们的文本生成模型（GPT-2）太危险了，不能发布」，使得普通大众认为我们离通用人工智能更近了，然而 AI 行业中的每个人都明白并没有更近。

其次也是更重要的是，他们错误地引导着人工智能研究者们花更多的时间在深度强化学习上。许多研究人员和黑客从这些研究深度学习的公司那里看到了一波又一波为深度强化学习「叫好」的 PR 新闻，当他们原本可以将精力集中在更大、更根本的问题上时，他们却花费了无数的时间去破解那些相同的问题。

四、要实现通用人工智能，真正要做的是什么？

如果人工智能和通用人工智能要向前发展，我认为是时候停止让深度强化学习系统玩电子游戏，转而集中精力解决更棘手的问题了。

所幸 DeepMind 和 OpenAI 的确有花时间解决其他问题，但正如我所说，深度强化学习似乎仍然是他们的主要关注点。

目前的深度强化学习系统似乎可以很好地契合已经有基础训练的系统。迁移学习中的智能体已经对其环境和自身有了基本的了解。我们不妨观察一个人类婴儿的学习历程：从出生开始，她（他）首先开始学习观察形状和颜色，移动手指，触摸物体，控制自己的身体，辨别声音，学习有关重力、物理、坠落、蠕动、弹跳的知识，学习物体恒常性等。每一个人或有机体都会在不同程度上经历这些学习过程。

通常在婴儿掌握了大量的知识之后，即当她（他）可以走路、抓握物体、自己上厕所、进行基本的交流等等之后，接下来就是更为正式的训练，比如家长会送孩子去学校，孩子在学校中会经历一个结构性更强的学习过程：学校通过家庭作业、评分以及测验训练孩子从课程中学习知识。

当前的深度强化学习系统似乎原本可以很好地适用于这种形式化的训练，在这种训练中，当智能体对环境有了基本的了解之后，系统可以清晰地、最大程度自动化地给所期待达成的目标指定分数。比方说如果孩子不能背诵 ABC 这三个字母，记为不及格，但如果他们能背诵整个字母表则记为及格。

当前深度强化学习技术正在本末倒置，我们正试图训练计算机从零开始完成一些复杂的任务，这种训练有时可能会有效，但由于这些模型是针对特定的任务而不是泛化能力而训练的，它们对自己的环境没有泛化的了解，最终导致系统过于脆弱，效果也不是很好。

只要奖励函数的问题没有被解决，再多新的学习算法，如BP 算法、DQN、PPO、DDPG、TRPO 都无法真正解决深度强化学习的问题。

我确信我们会有一些进步，也许会在 Starcraft 中赢得更多的分数，但是如果没有一个根本性的架构转变，来实现智能体在无监督的情况下从环境中进行学习，那么这些所谓的进步对于我们实现通用人工智能这一伟大梦想，也就没有太多的意义。

我自己的假设是，针对学习体的奖励函数实际上是由维持稳态和将「意外」最小化的动力所驱动的。

稳态是生物维持生存所需的稳定条件的过程。任何有机体都要生存，都必须保持其身体与外界环境分离。生物饥饿的时候要进食，疲倦的时候要睡觉，口渴的时候要喝水，受伤的时候要休息，被猎杀的时候要逃离，炎热的时候要让自己凉快一点等等。有机体在环境中行动时，这些与生俱来的原始信号指导着它们该做什么和该关注什么。如果它们不能胜任这些事情，则会导致有机体内失去平衡，最终导致过早死亡。

当生物在四处游荡时，它会建构自己的感知运动交互作用模型以及与周围世界交互作用的环境，该模型开始把各种事件汇聚到一起：天黑的时候应该比较冷；当我打嗝，我应该听到打嗝的声音；当我向左移动，我应该看到视野在 X 轴上变化；当一只动物走在我前面，它应该继续向前移动；当我的手指在杯子上扫过，我应该感受到光滑的表面；当我通过声带发出声音，我应该能在我的耳朵里听到相应的声音等等。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页

深度强化学习 继续死磕电子游戏还是另辟蹊径？

深度强化学习继续死磕电子游戏还是另辟蹊径？