日报标题:「读心术」怎么读?介绍一个模型
Clik here to view.

(这个是我对 Voxel-Wise 模型的一个简单解释,想对这个有更多了解的同学呢,留意下我的专栏,我后面会放上我复现 Gallant 他们组的一个文章的具体步骤的)
前一段时间 Gallant 他们组弄了个大新闻,发了一个 Nature 封面文章大脑词汇地图——4 月 27 日最新自然封面文章 - 神经科学 - 知乎专栏。(具体怎么回事你们看看这个专栏文章就好了)大脑的语义地图。那么他是怎么实现的呢?
仔细看看他的论文。原来 Gallant 玩的还是好几年前的东西(不过当然也是他们自己发明的东西)
Image may be NSFW.
Clik here to view.
关键词是这个!Voxel-Wise 模型。这是怎么一回事呢?其实就是用一些特征(这是一个机器学习里面的名词。比如你挑西瓜的时候这个西瓜的声音浑浊不浑浊,这个西瓜圆不圆对于西瓜的好坏这个问题来说就是一个特征,周志华机器学习哪本书里的解释)去拟合每一个 Voxel 的反应(也就是 fmri(功能核磁共振)下这个 Voxel 的信号)。(voxel 代表体素,后面会详细说)
Gallant 他们组这个研究用的一些语义、词性上面的一些东西作为特征然后拿这些特征去跟 fmri(功能核磁共振)检测到的大脑活动去做线性回归。其实就是那种最基本最简单的机器学习模型。简单的来说就是找规律。找权值,让这些特征的数量乘我找到的权值,再把所有特征加起来,就成了我预测到的大脑这个体素(Voxel)的活动数值。至于为什么叫 Wise 呢?因为有很多很多 Voxel 啊。所以就 Wise 啊。。
Image may be NSFW.
Clik here to view.
(线性回归,就是找规律了,在这里 x 轴就代表一个特征了,只不过他们那个模型输入的特征更多。图片来自 Wikipedia)
在这里我有必要给外行的同学解释一下什么是体素。
像素就是二维的成像最小单元,体素呢就是三维的最小单元。也是功能核磁共振(fMRI)扫描的最小单位。我们扫的就是这一小块一小块肉的血流信号,用这个血流信号来间接反映大脑的神经活动。
找到规律了以后呢。我们观察权值的大小(比如线性回归里面拟合出来直线的斜率和截距),通过这个我们可以反映这个某一个特征对这个体素活跃度的贡献。找到最能激活这个体素的特质语义,我们就可以画出来大脑的地图啦。
(不过这个模型说起来简单,实现起来问题还真的多的很呢)。
但是为什么说他们在用老方法呢?因为几年前他们就在用这个方法发文章了 (Kay et al. 2008)。比如这个,最有代表性。(回到我比较熟悉的视觉领域)
Image may be NSFW.
Clik here to view.
他们跟被试看了一堆这样子的图(1750 个),躺在 fmri 里记录大脑的活动。
他们怎么提取图片的特征呢?因为我们知道初级视觉皮层(v1)是对视野里的边缘朝向信息敏感的。所以我们用 Gabor 小波模型来在图片中提取这些朝向的信息作为特征。他们生成一堆各种尺度(不同空间频率),各种朝向的 Gabor 小波。如下图(这是我生成的小波)
Image may be NSFW.
Clik here to view.
然后拿这些小波矩阵去和图片的矩阵投影,得到一个数值,就是我们提取出来的特征了。
再用这些数值和大脑的活动去给每个小体素都做线性回归。最后就可以得到对这个体素的预测活动了。我们就建立出来了 Voxel-Wise 模型。
Image may be NSFW.
Clik here to view.
上面这个图是那一片文章 supplementary 的材料,说明得很好。就是取这些小波,投影,乘上权值加起来(weight),再来一个偏移量,得到对大脑的预测响应数值。
我们是怎么算出来这个权值的呢?其实就是用线性回归的梯度下降法做的(用了一点点 early stopping)。
但是这个体素(gallant 他们扫了 25000 多个体素)太多了,训练起来也很慢。而且有的体素预测的结果并不好,可以说这些体素在我们后续的处理中并没有什么卵用,还得把他们找出来丢掉。就必须实现一个对体素的筛选。
gallant 他们在这里就创新了一下了。主要这样的:
先不管对各种方向的响应(吧各个方向上图片的投影平均一下),只管位置和空间频率的信息。然后这下线性回归的特征一下子减少了 8 倍,好训练了,训练的也快的多了。
然后算出来了这些体素的权值,我们再对他们进行可视化的处理(画出来)。
Image may be NSFW.
Clik here to view.
这个图呢,叫这个体素的感受野图,这整个图代表一个视野,白色的地方代表这里的特征权值很大,也就是说它对这个体素活动预测的贡献很大。简单来说,这个感受野的意思就是这个体素只对视野里面这个位置的东西敏感,其他黑色的区域再怎么样对它的活动影响不太大。
我们知道比较初级的视觉皮层是又一个叫做视网膜拓扑的规律的,所以我们要找出来感受野是一个聚集的样子的(左边就是一个很理想的体素了),而混乱的体素是我们要舍弃的(像右边这样)。最后我们从 25000 多个体素里面挑了 500 个很有代表性的体素来做详细的预测,效果很好。
大体上就是这样了。这就是 gallant 的方法。提取特征,然后做线性回归。实现对脑活动的预测。不过细小的问题还有很多,我会在一个给专业一点的同学看的下一篇文章重点讲讲。
不过这个严格的来说不能称得上是读心术啊。只能说是读出来大脑里某些体素运行的规律。
除了这个 Voxel-Wise 以外还有一种读心术,叫做多体素模式分析(MVPA)以后有课会再专门写一个专栏文章的。
参考文献:
Huth, A. G., W. A. de Heer, T. L. Griffiths, F. E. Theunissen, and J. L. Gallant. 2016. 'Natural speech reveals the semantic maps that tile human cerebral cortex', Nature, 532: 453-8.
Kay, K. N., T. Naselaris, R. J. Prenger, and J. L. Gallant. 2008. 'Identifying natural images from human brain activity', Nature, 452: 352-5.
Kay, K. N., and J. L. Gallant. 2009. 'I can see what you see', Nat Neurosci, 12: 245.
广告:求实验室收留暑期访学。。。。