《Nature》最新研究:大脑中存在分布式强化学习机制
|
雷锋网(公众号:雷锋网)编者按:人工智能与神经科学/脑科学之间存在剪不断理还乱的关系。从人工智能诞生之初,其研究就深受神经科学的影响,包括人工神经网络、强化学习等诸多算法;最近较火的类脑计算,更是提出“brain-inspire”的想法。然而,我们常听,人工智能研究受神经科学/脑科学启发;那么,神经科学/脑科学的研究能否受人工智能研究的启发呢? DeepMind最近发表在《Nature》上的文章正是这样的的典范,在分布式强化学习的启发下,他们研究了小鼠多巴胺细胞的生理机制,发现大脑中同样在使用「分布式强化学习」。这样的研究,一方面促进了神经科学的发展,另一方面也验证了AI研究走在正确的道路上。学习和动机是由内、外部奖励所驱动的。我们的许多日常行为都以预测或预测给定的行动是否会带来积极的(即有益的)结果为指导。
巴浦洛夫在他最著名的实验中,训练狗在铃声响起后会产生期待食物的反应,这些狗在食物到达之前听到声音就开始流唾液,这表明它们已经学会了预测奖励。在最初的实验中,巴甫洛夫通过测量它们产生的唾液量来估计它们的期望。不过最近几十年中,科学家们开始破译大脑如何学习这些期望的内部运作方式。 与神经科学家的研究同时,计算机科学家们也在人工系统中不断地开发强化学习的算法,这些算法使AI系统不需要外部指导(而是由奖励预测指导)即可学习复杂的策略。
DeepMind近期发表在Nature上的一项新的工作是,受计算机科学最新的研究(对强化学习算法的重大改进)启发,他们为大脑中奖励学习的一些以前无法解释的特征提供了一个深刻而简约的解释,并由此开辟了研究大脑多巴胺系统的新途径。可谓是人工智能研究反哺神经科学/脑科学的典范。 预测链:时间差分学习 强化学习是人工智能与神经科学结合形成的最为「古老」且强大的思想,早在80年代末就已经出现。当时的计算机科学研究人员试图设计一种算法,把奖励和惩罚作为反馈信号融入到机器的学习过程,目的是让机器能够自动执行复杂的行为。奖励行为可以强化机器的行为,但是要解决一个特定的问题,即必须了解当前机器的行为如何带来未来的回报;为了预测某项行为带来的未来的总回报,通常有必要对未来采取许多措施。 时间差分算法(TD)的出现为解决奖励预测问题找到额突破口,TD使用一种数学技巧,通过一个非常简单的学习过程代替对未来的复杂推理,还能得到相同的结果。简单的说,TD算法并不计算所能得到的未来的总回报,而是仅仅预测即时奖励以及下一步骤所能获得的奖励。 然后,当下一刻出现新信息时,将新的预测与预期的进行比较。 如果它们不同,则算法会计算出它们之间的差异,并使用此“时间差分”将旧的预测调整为新的预测。不断调整,使期望与现实相匹配,从而使整个预测链逐渐变得更加准确。大约在20世纪80年代末和90年代初,神经科学家研究了多巴胺神经元的行为,并发现此神经元的放电和奖励有某种关系,而且这种关系依赖于感觉输入,并且如果研究目标(例如动物)在一项任务中变得更加有经验,则这种关系也会发生改变。 20世纪90年代中期,有一批科学家同时对神经科学和人工智能都非常精通。他们注意到:有一些多巴胺神经元的反馈意味着奖励预测的错误,例如与训练时的预期相比,当动物得到过多或过少的奖励时,这些多巴胺就会放电发出信号。这些科学家于是提出了大脑使用的TD算法,即考虑多巴胺的反馈,并用于驱动学习。此后这种多巴胺奖励预测误差理论( reward prediction error theory of dopamine)在数千个实验中得到验证,并成为了神经科学中最成功的定量理论之一。 分布式强化学习 计算机科学家的脚步并未停留于此,自2013年以来,越来越多的研究人员开始关注深度强化学习,这种在强化学习中用深度神经网络来学习表示的算法,能够极为有效的解决复杂问题。
雷锋网注:图1 :概率表示未来可能得到的奖励,如上图所示,红色表示正向结果,绿色表示负向结果。 分布强化学习是其中的代表,它能让强化学习发挥出更加优异的效果。在许多情况下(尤其是在现实世界中),特定动作所产生的未来奖励具有随机性。如上图所示,图中的“小人”并不知道是跨过缺口,还是掉进去,所以预测奖励的概率分布图形出现了两个凸起:一个代表跌落;一个代表成功跨过。传统的TD算法采用的方式是预测未来奖励的平均值,这显然无法获得奖励分布的两个峰值(凸起),这时候分布强化学习则可以预测到所有的可能性。 悲观/乐观预测谱 最简单的分布强化学习算法与标准TD密切想关,这种算法也称为分布式TD。两者的区别是:标准TD算法学习单个预测或者预测的期望值;而分布式TD则学习的是一组不同的预测,这组预测中的每一个都采用标准TD方法学习。但关键的因素是,每个预测器都会对其奖励预测误差应用不同的转换。
图2:a:“悲观的”细胞将放大负向奖励或忽略正向奖励,乐观的细胞将放大正向奖励或忽略负向奖励;b:奖励累积分布图;c:奖励的完整分布图 如上图a所示,当奖励预测误差为正时,一些预测器有选择地“放大”或“加码”奖励预测误差(RPE)。与奖励分配的较高部分相对比,这种方法能够让预测器学习到一个更乐观的奖励预测。同样如上图所示,其他预测因子放大了它们的负奖励预测误差,因此学习更悲观的预测。综上所述,包含悲观和乐观奖励的预测器能够绘制完整的奖励分布图。 除了简单之外,分布式强化学习的另一个好处是,与深度神经网络结合使用时,它会非常强大。在过去5年中,基于原始的深度强化学习DQN agent的算法取得了很大进展,并且经常在Atari 2600游戏的Atari-57基准测试集上进行评估。
图3:将经典的深度强化学习与分布强化学习进行对比,在Atari-57基准上的标准化得分中位数(Atari-57 human-normalised scores) (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |





