Quantcast
Channel: 知乎日报
Viewing all articles
Browse latest Browse all 20608

读心术怎么读?Voxel-Wise模型.

$
0
0

日报标题:「读心术」怎么读?介绍一个模型

李竞捷,大一/学习计算神经科学与机器学习中/航空爱好者

(这个是我对 Voxel-Wise 模型的一个简单解释,想对这个有更多了解的同学呢,留意下我的专栏,我后面会放上我复现 Gallant 他们组的一个文章的具体步骤的)

前一段时间 Gallant 他们组弄了个大新闻,发了一个 Nature 封面文章大脑词汇地图——4 月 27 日最新自然封面文章 - 神经科学 - 知乎专栏。(具体怎么回事你们看看这个专栏文章就好了)大脑的语义地图。那么他是怎么实现的呢?

仔细看看他的论文。原来 Gallant 玩的还是好几年前的东西(不过当然也是他们自己发明的东西)

关键词是这个!Voxel-Wise 模型。这是怎么一回事呢?其实就是用一些特征(这是一个机器学习里面的名词。比如你挑西瓜的时候这个西瓜的声音浑浊不浑浊,这个西瓜圆不圆对于西瓜的好坏这个问题来说就是一个特征,周志华机器学习哪本书里的解释)去拟合每一个 Voxel 的反应(也就是 fmri(功能核磁共振)下这个 Voxel 的信号)。(voxel 代表体素,后面会详细说)

Gallant 他们组这个研究用的一些语义、词性上面的一些东西作为特征然后拿这些特征去跟 fmri(功能核磁共振)检测到的大脑活动去做线性回归。其实就是那种最基本最简单的机器学习模型。简单的来说就是找规律。找权值,让这些特征的数量乘我找到的权值,再把所有特征加起来,就成了我预测到的大脑这个体素(Voxel)的活动数值。至于为什么叫 Wise 呢?因为有很多很多 Voxel 啊。所以就 Wise 啊。。

(线性回归,就是找规律了,在这里 x 轴就代表一个特征了,只不过他们那个模型输入的特征更多。图片来自 Wikipedia)

在这里我有必要给外行的同学解释一下什么是体素。

像素就是二维的成像最小单元,体素呢就是三维的最小单元。也是功能核磁共振(fMRI)扫描的最小单位。我们扫的就是这一小块一小块肉的血流信号,用这个血流信号来间接反映大脑的神经活动。

找到规律了以后呢。我们观察权值的大小(比如线性回归里面拟合出来直线的斜率和截距),通过这个我们可以反映这个某一个特征对这个体素活跃度的贡献。找到最能激活这个体素的特质语义,我们就可以画出来大脑的地图啦。

(不过这个模型说起来简单,实现起来问题还真的多的很呢)。

但是为什么说他们在用老方法呢?因为几年前他们就在用这个方法发文章了 (Kay et al. 2008)。比如这个,最有代表性。(回到我比较熟悉的视觉领域)

他们跟被试看了一堆这样子的图(1750 个),躺在 fmri 里记录大脑的活动。

他们怎么提取图片的特征呢?因为我们知道初级视觉皮层(v1)是对视野里的边缘朝向信息敏感的。所以我们用 Gabor 小波模型来在图片中提取这些朝向的信息作为特征。他们生成一堆各种尺度(不同空间频率),各种朝向的 Gabor 小波。如下图(这是我生成的小波)

然后拿这些小波矩阵去和图片的矩阵投影,得到一个数值,就是我们提取出来的特征了。

再用这些数值和大脑的活动去给每个小体素都做线性回归。最后就可以得到对这个体素的预测活动了。我们就建立出来了 Voxel-Wise 模型。

上面这个图是那一片文章 supplementary 的材料,说明得很好。就是取这些小波,投影,乘上权值加起来(weight),再来一个偏移量,得到对大脑的预测响应数值。

我们是怎么算出来这个权值的呢?其实就是用线性回归的梯度下降法做的(用了一点点 early stopping)。

但是这个体素(gallant 他们扫了 25000 多个体素)太多了,训练起来也很慢。而且有的体素预测的结果并不好,可以说这些体素在我们后续的处理中并没有什么卵用,还得把他们找出来丢掉。就必须实现一个对体素的筛选。

gallant 他们在这里就创新了一下了。主要这样的:

先不管对各种方向的响应(吧各个方向上图片的投影平均一下),只管位置和空间频率的信息。然后这下线性回归的特征一下子减少了 8 倍,好训练了,训练的也快的多了。

然后算出来了这些体素的权值,我们再对他们进行可视化的处理(画出来)。

这个图呢,叫这个体素的感受野图,这整个图代表一个视野,白色的地方代表这里的特征权值很大,也就是说它对这个体素活动预测的贡献很大。简单来说,这个感受野的意思就是这个体素只对视野里面这个位置的东西敏感,其他黑色的区域再怎么样对它的活动影响不太大。

我们知道比较初级的视觉皮层是又一个叫做视网膜拓扑的规律的,所以我们要找出来感受野是一个聚集的样子的(左边就是一个很理想的体素了),而混乱的体素是我们要舍弃的(像右边这样)。最后我们从 25000 多个体素里面挑了 500 个很有代表性的体素来做详细的预测,效果很好。

大体上就是这样了。这就是 gallant 的方法。提取特征,然后做线性回归。实现对脑活动的预测。不过细小的问题还有很多,我会在一个给专业一点的同学看的下一篇文章重点讲讲。

不过这个严格的来说不能称得上是读心术啊。只能说是读出来大脑里某些体素运行的规律。

除了这个 Voxel-Wise 以外还有一种读心术,叫做多体素模式分析(MVPA)以后有课会再专门写一个专栏文章的。

参考文献:

Huth, A. G., W. A. de Heer, T. L. Griffiths, F. E. Theunissen, and J. L. Gallant. 2016. 'Natural speech reveals the semantic maps that tile human cerebral cortex', Nature, 532: 453-8.

Kay, K. N., T. Naselaris, R. J. Prenger, and J. L. Gallant. 2008. 'Identifying natural images from human brain activity', Nature, 452: 352-5.

Kay, K. N., and J. L. Gallant. 2009. 'I can see what you see', Nat Neurosci, 12: 245.

广告:求实验室收留暑期访学。。。。


Viewing all articles
Browse latest Browse all 20608

Trending Articles