日报标题:小鸟学唱歌时,脑袋里会蹦出来好多随机数
神经系统中充满了随机性。这通常被认为是一种需要被降低的噪声:例如 大脑中的计时器:HVC 和 Synfire Chain 模型 中提到的共火链模型,其最大的优势就是降低从一组神经元到另一组神经元信息传递的时间误差[1]。
那么大脑有没有利用这种随机性呢?与传统的看法相反,在斑胸草雀(Zebra finch)和秀丽隐杆线虫(C. elegans)的神经系统中都发现了神经回路主动产生的随机性[2,3,4,5]。
1. 镶嵌皮层外侧巨细胞核(LMAN)向运动皮层注入随机性以探索不同歌声。
斑胸草雀用于学习唱歌的脑回路示意图。RA, robust nucleus of the arcopallium,一个作用类似于哺乳动物运动皮层的神经核,直接控制运动输出;在成年草雀脑中 HVC 对 RA 的刺激性输入占主导地位,而在处于学习阶段的幼年草雀脑中 LMAN 对 RA 的刺激性输入占主导地位(见下文)。
小鸟是如何学会唱歌的呢?强化学习(Reinforcement learning, RL)理论认为大脑采用的策略是:尝试各种不同的歌声,听起来好听的就继续唱,不好听的就不再重复 *。这一策略要求在开始学习时主动探索各种不同的声音。这就像学习踢足球:如果你是一个新手,射门时你会有时把球踢进门,常常把球踢飞——而你在练习中逐渐学会的就是让球落在你想让它落在的地方。
这一理论就要求神经系统主动探索运动空间,或者说尝试产生从未产生过的运动控制信号。
LMAN 的活动向控制唱歌的运动皮层区域 RA 传送的正是这一“探索”信号:当 LMAN 活动被抑制时,幼鸟练习唱歌时的随机性也随之消失了(如下图)。
图自 Fig 1B, [4].
更重要的是,损伤 LMAN 不仅导致幼鸟丢失练习唱歌时的随机性,也使其无法成功学习唱歌——这一主动产生的随机性是学习唱歌所必需的。
感谢评论区 @Jacob MBDLevi 指出“學習需要隨機嘗試與精確控制的兩種功能在學習過程中合適的時間開啟。” 这是强化学习一个很重要的特征:如果随机数产生器持续向运动系统注入大量的随机探索,那么系统将永远也无法汇集到正确的动作上。这就要求 LMAN 对运动皮层的影响随着草雀年龄的增长(唱歌越来越熟练)逐渐降低,而把“控制权”交给精确的 HVC。
这恰恰是人们所发现的[6]:抑制成年鸟的 HVC,相当于关闭精确控制的功能,会使得他唱的歌像幼鸟练习一般随机;不仅如此,相对应的运动皮层的活动也是一样随机。在幼年时抑制 LMAN 则获得相反的结果。这就揭示了随着年龄的增长,LMAN 对运动皮层的影响力逐渐减弱,HVC 则取而代之,从而实现精确的运动控制。
2. 秀丽隐杆线虫对气味信息主动产生随机反应。
(这里是一个类似的故事,产生随机性的是秀丽隐杆线虫中四个神经元构成的网络。迟点有空再写)
* 在这里“好听”约等于“和记忆中的模板一样”,模板通常来自于记忆中父亲的歌。
** LMAN, lateral magnocellular nucleus of the nidopallium 镶嵌皮层外侧巨细胞核……名字并不重要。谷歌翻译的(如果有更好的译名请指出……)
[1] Diesmann, M., Gewaltig, M. O., & Aertsen, A. (1999). Stable propagation of synchronous spiking in cortical neural networks. Nature, 402(6761), 529–533.
[2] Kao, M. H., Doupe, A. J., & Brainard, M. S. (2005). Contributions of an avian basal ganglia-forebrain circuit to real-time modulation of song. Nature, 433(7026), 638–643.
[3] Ölveczky, B. P., Andalman, A. S., & Fee, M. S. (2005). Vocal experimentation in the juvenile songbird requires a basal ganglia circuit. PLoS Biology, 3(5), 0902–0909.
[4] Goldberg, J. H., & Fee, M. S. (2011). Vocal babbling in songbirds requires the basal ganglia-recipient motor thalamus but not the basal ganglia. Journal of Neurophysiology, 105(6), 2729–2739.
[5] Gordus, A., Pokala, N., Levy, S., Flavell, S. W., & Bargmann, C. I. (2015). Feedback from network states generates variability in a probabilistic olfactory circuit. Cell, 161(2), 215–227.
[6] Ölveczky, B. P., Otchy, T. M., Goldberg, J. H., Aronov, D., & Fee, M. S. (2011). Changes in the neural control of a complex motor sequence during learning. Journal of Neurophysiology, 106(1), 386–397.