深度强化学习继续死磕电子游戏还是另辟蹊径？

发布时间：2020-01-12 08:39:39 所属栏目：通讯来源：网络整理

导读：深度强化学习继续死磕电子游戏还是另辟蹊径？

（原标题：深度强化学习走入「死胡同」，继续死磕电子游戏还是另辟蹊径？）

2019年，深度强化学习可以算得上 AI 研究的 Top 关键词之一。

无论是 DeepMind 星际2 AI 「AlphaStar」血虐人类玩家，还是 OpenAI 最终因太过强大而被认为可能有风险所以不公开发布的语言模型 GPT-2，无疑都在过去一年中最轰动的 AI 大事件之列，也吸引了 AI 社区的越来越多的研究者投身深度强化学习研究之列。

然而，也有很多反对的声音认为深度强化学习现在的一系列成果，其实更像是一种虚假的「繁荣」。

本文作者朱仲光便是其中的一位。他指出，深度强化学习会给研究者们尤其是各位不明真相的大众带来「离通用人工智能越来越近」的错觉，而更为严重的是，深度强化学习会耗费掉研究者们本可以用来研究其他更重要的问题和更有前景的方向的时间和精力。

他的具体观点，我们下面来看：

一、2019年都过去了，并没有离现实世界更进一步

随着2019年的结束，我想回顾一下人工智能所取得的进展。在这一年，AI 社区尤其将深度强化学习大肆宣扬为下一个朝着通用人工智能（AGI）前进的革命性的一步。

通用人工智能，顾名思义，就是指能够像人类一样以一种通用的方式学习万事万物的计算机算法。

近年来，研究者们针对深度强化学习开展了大量研究工作，现在也逐渐取得了一定进展。

围绕深度强化学习的想法和期望是，理论上，我们能轻而易举地训练一个能做任何事情的智能体，比如开车、叠衣服、玩电子游戏、打扫房间、玩魔方等等，并且所有智能体的学习过程都不需要人工干涉。其中一些实验已经取得一些成功，你可以教一个深度强化学习的智能体玩一些电子游戏和棋类游戏，但是一旦涉及现实世界，进入生产系统，这些实验都会以失败告终。

据我所知，2019年都过去了，仍然没有出现任何能够使用深度强化学习技术的生产系统。

二、到底解决哪些问题，才有意义？

深度强化学习系统有许多问题，我并不打算详细讨论这些问题的细节，因为有很多博客文章已经讨论过这些问题。

如果这些问题中有一部分得到改善或解决，例如找到更抽象的方式来表征神经网络内部的信息，我也不会太惊讶，但如果不能解决我所认为的核心问题，即有关手动设置奖励的问题，那所谓的「改善」或「解决」也就意义不大了。

在深度强化学习中，我认为大部分时间都花在了设计奖励函数来让智能体完成想让它做的事情。用更传统的机器学习术语来说，奖励函数就是目标函数，指的是算法利用奖励函数来了解系统是否朝着正确的方向运行，模型得到的奖励越多，它就「越好」。

比如教一支机械臂叠衣服，假如说你有一堆裤子，那么你如何编写奖励函数来让机械臂正确地叠这些裤子呢？当向另外一个人解释这一点时，听起来很简单，只是「把裤子叠成整齐的一堆」，但是计算机并不知道这些规则的含义。

对于每一个实验，你设计的奖励必须要让计算机在完全不知道自己实际正在做什么的情况下，可以自己衡量自己的运行过程。因此，你设计的奖励程序可以在机械臂碰到裤子时就开始给它奖励，之后再针对是否正确抓住了裤子以及移动了裤子，来给它更多奖励得分。

那如何基于机械臂在实际折叠裤子中的表现给予奖励？叠三次可以得分吗？没有将裤子叠皱又得多少分？

最终，你花了太多时间试图去引导智能体遵循正确的路径，以至于它基本上处在完全的监督之下。

理论上，你的确可以让一个人监督着整个训练过程，这个人可以为系统采取的每一个动作指定一个分数，但这种方式是不能泛化的。

这些深度强化学习系统需要基于数万到数百万次的迭代来试验动作的每一个变化，以找出实现最终目标的正确序列，个人很难监控计算机采取的所有步骤。研究者也正在积极探索，试图将这个范围缩小至有限次数的学习，但对我来说，这只是试图改进一些从根本上而言没有意义的东西。

在你试图训练机器人折叠裤子的过程中，你可能需要不断调整奖励函数，因为它可能会意外地撕破裤子、弄掉一些零部件、不把裤子翻出来就直接折叠，或者以看起来毫无意义的奇怪方式折叠裤子。这样的话，奖励的设计变成了一个试验性的过程，即通过反复的尝试和试错来确定什么是有效的奖励。有无数的报告记录了深度强化学习模型做出的各种意想不到的动作。

强化学习通常被划分为除监督机器学习和无监督机器学习以外的第三类，但在我看来，它其实就是监督学习。

当前的强化学习实现步骤是这样的：你开始训练模型，然后你看着它失败然后「死掉」，接着你花费大量的时间一次又一次调整奖励函数，直到你「有可能」得到一个理想的结果，但仅仅是「有可能」。

这个过程中有哪一步你没有给系统提供训练数据？事实上你把整个过程复杂化了，你仅仅是把答案以间接的方式提供给智能体，而这恰恰让一切变得更加困难。

如果计算机要从周围的环境中学习，那必须在一个100% 无监督的环境里进行。

三、当公关大于实质进步，会带来哪些危害？

那么，为什么关于深度强化学习的炒作如此之多？

如果你站在一个抽象的角度来看待深度强化学习，你就会知道它被描述为一个随着时间的推移从其环境中学习的智能体。

这似乎是绝对正确的，而且确实「很像」是真的，所有生物都是从出生开始学习如何从其环境中生存和行动。

我们之所以知道这一点，是因为我们做了许多实验，经验告诉我们，如果我们改变和限制新生有机体的环境，它们会学到不同的东西，行为也会有所不同。

深度强化学习与诸如监督分类的传统机器学习方法有很大的不同，传统的机器学习是一个静态模型，它获取原始数据和答案并最终建立一个模型用于生产。在传统的深度强化学习框架中，系统犯错的部分就是信号的来源。这些人工智能体必须直接从它们自身和环境中学习，而不是从我们提供给它们的某种人工奖励函数中学习。

当 DeepMind 推出一个单一的不进行任何人为干涉就可以学会玩 Atari 电子游戏的深度强化学习智能体时，人们认为这种智能体可以泛化到其他领域的各种问题，甚至是通用人工智能。

但我们所了解到的是，有机体和人类所做的大多数事情，都无法建模成通过让智能体持续优化从而尽可能获得更多奖励的电子游戏。不要被「深度强化学习不需要人为干涉就能够在游戏中获胜」的新闻所愚弄！设计奖励这一操作仍然存在，并且在40年前，当电子游戏制造商雇佣整支队伍来制作这些游戏时，就已存在这种操作。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

深度强化学习 继续死磕电子游戏还是另辟蹊径？

深度强化学习继续死磕电子游戏还是另辟蹊径？