我院脑科学团队发现多巴胺在行动-奖赏学习中的功能


      大脑中的多巴胺对学习记忆以及运动控制至关重要。在多巴胺与学习记忆方面,剑桥大学的Schultz等人在1997年提出了多巴胺的“奖赏预测误差假说 (reward prediction error hypothesis)”,提出多巴胺在巴甫洛夫条件反射式学习期间编码刺激-奖赏预测误差,即实际奖赏与基于该刺激的预期奖赏之间的差异。虽然该理论已被拓展并广泛应用于有关动作抉择的强化学习,但多巴胺是否真正编码动作-结果预测误差、以及它如何控制序列运动行为在很大程度上仍然知之甚少。此前,包括Schultz等人的研究在内,以前绝大多数实验主要使用离散的外在刺激作为奖赏的预测,无论是不需要采取任何行动来获得奖赏的巴甫洛夫条件反射式实验,还是指导动物如何以及何时做出反应的明确区分性刺激。而现实生活中,很多奖赏的获得是通过自主的不断尝试和错误纠正来获得。多巴胺在这种具有探索性的自我学习和行为改善过程中的功能又是怎么样的呢?

图1. 预期奖赏的目标导向性动作抑制获得奖赏时的多巴胺释放

      如图1所示,在最新的实验中,我院金鑫教授团队通过训练小鼠进行多巴胺光遗传学颅内自我刺激,同时利用快扫描循环伏安法记录背侧纹状体多巴胺浓度变化(图1A),研究了动物在自发的目标导向性行为的学习中黑质-纹状体通路的多巴胺变化。他们发现,无论是用食物或者直接光遗传学刺激多巴胺神经元作为奖励,与同样强度的被动奖赏相比,动物自身行为赢得的奖赏引发的多巴胺释放显著减少(图1B-C)。而且,不仅是在单个动作情形下,整个学会的运动序列也会作为一个整体抑制多巴胺释放(图1D-E)。进一步的实验结果表明,黑质-纹状体通路的多巴胺在行动-结果关联中编码运动序列特异性的奖赏预测误差信号,并且可能参与等级化地控制序列运动行为。这些结果证实,在自我探索过程中,系列行动导致的外界结果与前期期望不一致时多巴胺会提供反馈信号,以供自我学习和行为改善。同时,在反复学习熟悉环境互动后,目标导向性的动作会提供一个前馈内部副本信号以抑制多巴胺反应,停止不必要的关联学习。

      前期,在多巴胺和运动控制方面,金鑫教授及其合作者提出了黑质-纹状体通路的多巴胺投射会编码并控制序列运动的开始和结束(Nature, 2010, 66(7305): 457-462),以及可以在线影响动物的抉择行为(Neuron, 2017, 93(6): 1436-1450)。这些发现为我们理解多巴胺在运动控制及行为抉择中的功能提供了重要基础。加上上述最新的工作,金鑫教授团队的系列工作因此提示多巴胺在短时程上通过在线运动控制及长时程上通过学习反馈来分别影响动物现在和未来的行为抉择。这些发现对增强帕金森病人的运动控制,以及改进人工智能中广泛应用的强化学习算法具有重要指导意义。此项工作以“Nigrostriatal Dopamine Signals Sequence-Specific Action-Outcome Prediction Errors”为题发表在国际著名学术期刊《当代生物学》(Current Biology)31: 1-14 (2021)上。该论文我校为通讯作者单位,金鑫教授为唯一通讯作者。

附:期刊链接:https://www.sciencedirect.com/science/article/pii/S096098222101280X

Baidu
sogou