深度强化学习继续死磕电子游戏还是另辟蹊径？

发布时间：2020-01-12 08:39:39 所属栏目：通讯来源：网络整理

导读：深度强化学习继续死磕电子游戏还是另辟蹊径？

如果有什么意外的事情发生，有什么东西偏离了它的模型，那么该模型会重新调整它的预期，直到得到它所预期的结果，这也可能会导致更多的移动。如果最终不能得到预期的结果，那么真正的「意外」就会出现，这些神经元就被标记为「需要更新模型」，在这种情况下，重新学习和重新优化可能会实时发生，也可能是在机体处于睡眠状态时发生。

优化过程会在智能体的内部环境模型和实际环境之间进行，并持续优化以使意外最小化。神经科学和哲学已经在很长一段时间里对这些思想展开过讨论，比如 Andy Clark 提出的预测处理的思想以及 Karl Friston 提出的自由能量原理（Free Energy Principle）。

据我所知，这些思想还没有成功地应用于机器学习环境中。我认为这其中有很多技术问题：如何在计算机中模拟稳态状态，如何存储模型的内部表征，智能体的感官和环境之间的低分辨率以及低保真环境等等。

我并非意在采用一个煽动性的标题来写这篇文章，但我也无法以一种更恰当的方式来向人们说明「当前的深度强化学习架构从根本上而言就是错的」这一问题。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

深度强化学习 继续死磕电子游戏还是另辟蹊径？

深度强化学习继续死磕电子游戏还是另辟蹊径？