《Nature》最新研究：大脑中存在分布式强化学习机制

发布时间：2020-01-17 12:24:33 所属栏目：数据来源：网络整理

导读：《Nature》最新研究：大脑中存在分布式强化学习机制

图3比较了在相同基准下经过相同条件训练和评估的多个标准RL和分布式RL算法。分布式强化学习agent以蓝色显示，可以看出取得了显著的提升。其中的三种算法（QR-DQN，IQN和FQF）是我们一直在讨论的分布式TD算法的变体。为什么分布强化学习算法如此有效？虽然这仍然还是一个活跃的研究课题，但其中一点则在于了解奖励的分布情况会为神经网络提供更强的信号，从而以一种对环境变化或策略变化更具鲁棒性的方式来塑造其表示形式。

多巴胺中的分布式代码

由于分布式时间差分在人工神经网络中的功能如此强大，一个科学问题随之出现：分布式时间差分能被应用到大脑中吗？这就是驱动研究者开始这篇《Nature》论文工作的最初动机。在这篇论文中，DeepMind与哈佛Uchida Lab 合作，分析了他们对小鼠多巴胺细胞的记录。这些记录记下了小鼠在一项任务中表现出的学习能力，在任务中，它们获得了意料之外的大量的奖励（如图4的彩图所示）：

《Nature》最新研究：大脑中存在分布式强化学习机制

图4：在该任务中，小鼠被给予随机确定、容积可变的水奖励，容积从0.1ul到20ul不等（奖励大小由掷骰子决定）：（A）经典TD 模型下模拟的多巴胺细胞对7种不同奖励大小的反应；（B）分布式TD 模型下，每一行点对应着一个多巴胺细胞，每一种颜色对应着不同的奖励大小，颜色曲线表示数据的样条插值。一个细胞的“反转点”（细胞的奖励预测误差、放电率在0值处相交）就是特定细胞将奖励“调”到的预期奖励，例如，由于奖励大小达到了细胞的期望，所以它的放电率与它的基线率相比不多也不少；（C）实际多巴胺细胞对其中不同奖励大小的反应，与分布式TD模型的预测非常接近。

插图展示了三个对正向和负向的奖励预测误差有不同的相对缩放比例的示例细胞。研究者评估了多巴胺神经元的活动是与「标准的时间差分」还是与「分布式时间差分」更加一致。如上所描述的，分布式时间差分依赖于一组不同的奖励预测。

因此，研究首要的问题便是，是否能够在神经数据中找到这些真实多样的奖励预测。在此前的工作中，研究者了解到多巴胺细胞会改变它们的放电率，来暗示出现了预测误差，也就是说，当动物获得了比它们的预期更多或更少的奖励，就是发生了预测误差。

而当细胞获得了与它的预测恰好相等的奖励，预测误差就为0 ，从而其放电率也不会发生任何变化。研究者为每个多巴胺细胞决定好不会改变它的基线放电率的奖励大小，对此研究者称之为细胞的“反转点”。他们希望能够了解到，细胞与细胞之间的“反转点”是否不同。

在图4c中，作者展示了细胞之间的显著差异，一些细胞预测的奖励非常大，而另一些细胞预测的奖励却非常小。这些差异超出了预期从记录中原有的随机变异性，所看到的差异程度。在分布式时间差分中，奖励预测中的这些差异源自于正向或负向的奖励预测误差的选择性放大。放大正向的奖励预测误差，会造成学习的奖励预测更乐观；而放大负向的奖励预测误差，则会带来悲观的奖励预测。

所以研究者接下来测量了不同多巴胺细胞表现的不同正向和负向预测的相对放大程度。在细胞间，研究者发现了可靠然而却无法用噪声来解释的多样性。并且最关键的是，研究者发现，放大了正向奖励预测误差的相同的细胞，也有更高的反转点（图4c，右下角图），也就是说，它们显然将反转点调整到了更高奖励量的预期。最后，分布式时间差分理论预测出，细胞之间不同的“反转点”、不同的不对称性应该一起对学到的奖励分布编码。所以最后一个问题就是，是否能够基于多巴胺细胞的放电率对奖励分布解码。

《Nature》最新研究：大脑中存在分布式强化学习机制

图5：多巴胺细胞作为一个群体，对学到的奖励分布的形状进行编码：可以给予放电率对奖励分布编码，灰色的阴影区域是任务中遇到的真实的奖励分布。每条浅蓝色的轨迹都显示了执行解码过程的示例。深蓝色表示的是浅蓝色轨迹平均超出灰色区域的部分。

如图5所示，研究者发现仅使用多巴胺细胞的放电率，完全有可能重构一个奖励分布（蓝色轨迹），这与小鼠参与任务中的实际奖励分布（灰色区域）非常接近。这一重构依赖于将多巴胺细胞的放电率解译为分布时间差分模型分布的奖励预测误差并进行推理以确定模型已经了解的分布。

总结

总结来说，研究者发现大脑中的每个多巴胺神经元都被调到了不同的积极或消极程度。要是它们是一个唱诗班，它们唱的并不是一个音符，而是在唱和声，它们都像低音或女高音歌手一样，有着各自始终如一的声带。在人工强化学习系统中，这种多样的调整，创造了更加丰富的训练信号，极大地加速了神经网络中的学习速度，研究者推断大脑也会出于这种考量而去采用这种多样的调整方式。大脑中现存的分布式强化学习，对AI 和神经科学都有着非常有意思的影响。

首先，这一发现验证了分布式强化学习，让我们更加坚信：AI 研究正走在正确的轨迹上，因为分布式强化学习算法已经应用于我们认为最智能的实体：大脑。其次，它为神经科学提出了新问题，并为理解心理健康和动机提供了新的视角。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页