Quantcast
Channel: 知乎日报
Viewing all articles
Browse latest Browse all 20608

人类本身识别面部用的是什么「算法」?

$
0
0

日报标题:为了认出那张脸,你知道大脑有多努力吗?

华沙,NTU心理学博士在读。UoG心理学研究方法硕士。BJFU心理学学士。

这是一个相当好的问题,我最近一直在思考一些新的论文,强调了面孔各个特征之间的相互关系与链接。尤其是反思 Calder & Young (2005)的精彩综述之后特意查阅了相关论文, 深感面孔处理的精妙,以及深藏的处理 ‘算法’ 之巧妙。尽让我斗胆在此大致介绍下自己的理解,望批评指正。

(最近我有个 Live,在周六,也是说关于面孔识别。有兴趣可以来看看华沙的 Live—— 看脸的科学第二集

按照 David Marr 等视觉研究大神的精彩观点,我们任何的视觉处理都是信息处理(而非简单地、粗暴地处理看到东西本身);很显然面孔,这一种最为重要的、与社会生活息息相关的视觉信息不能免俗,也是一种信息处理过程。所以题主提到能不能用计算机模拟其实是个非常好的问题,冯诺依曼机作为以人类为原本的计算机,完全应该有人类的能力。不过,很抱歉,我们目前都没有完全理解视觉过程,而目前计算机的很多 CV 研究并不完全按照人类的识别方法进行(老实说,可能计算机视觉和人类视觉的交际也就到 70 年代 Hubel & Wiseal 的论文为止了吧)。所以我的观点其实很简单,计算机目前基于更强的计算能力,完全可以利用已知的一些大脑处理面孔方式对于面孔进行分析,但是效率和准确度和人类不好比(严格说是效率);当我们更加理解了大脑的原理之后,相信不在不远的将来,计算机完全可以做到更好。

那么人类本身用什么算法呢?

很简单,整体识别

我先说下,面孔识别的相关大脑结构。按照经典的面孔识别模型(Bruce & Young, 1986; Haxby, Hoffman, & Gobbinni, 2000),我们大脑利用 FFA(梭状回面孔区;Kanwisher, McDermott, & Chun, 1997),pSTS(后颞上沟皮层; Hoffman & Haxby, 2000),OFA(枕叶面孔区; 如 Yovel, Kanwisher, 2005)这三个核心面孔处理区域以及 ‘借用’ 其余的视觉和高级处理皮层达到面孔的识别。这几个脑区有多重要呢,我举个不恰当的例子,人类的好朋友狗狗们,就是因为有类似人一样的面孔识别区域(也在下颞叶,和人类位置很接近;Dilks et al., 2015),才能记住主人的面孔。

就如同 Mishkin 与 Ungerleider 教授(1982)的精彩研究结论一样,我们处理面孔的时候也把信息分为了两束进行分析。第一束往下颞叶走更加依赖于 FFA,往往是处理面孔上不变的信息,比如身份(是谁);而另一束往顶叶走,依赖于 pSTS,处理面孔上动态的信息,比如表情,面孔方向等。这就是面孔处理的一个基本算法。也就是依赖核心脑区(佐以其余神经系统帮助),把面孔信息进行粗略划分之后进行分析。当然杏仁核等边缘系统可以从上丘直接获得输出(此处不展开,可以看看我专栏提到的),但是大致途径类似。总体而言,面孔上的信息会在 FFA 进行汇总(Yovel, Kanwisher, 2006),然后往更高级视觉皮层传递。那么这部分信息到底是什么呢?这就是整体识别的关键信息。

可能和大家想象的不一样,我们识别面孔的时候其实并不是只依赖一些局部的信息,比如眼睛、嘴巴。而是把面孔上的信息汇总在一起,成为一个整体来进行分析(如 Yin,1969 发现的面孔倒置效应就是整体识别的一个好佐证)。这样的分析高效快捷。那么整体是怎么分析的呢?这就得说道一个笔者特别喜欢的观点:面孔模板假说。

我们对于面孔的理解和分析都基于我们所看到的面孔(Webster & MacLeod, 2011)。倘若我们把所有面孔都假设存放与一张平面上,那就是一张面孔的地图(Valentine, 1991)。这一章地图就是反映我们识别面孔的方法:我们的算法就是通过上述大脑区域的群体编码,根据不同神经细胞的活动程度,我们可以在脑海中形成一个 ‘矩阵’,这个矩阵编码了看到的图片在某个判断维度上(如表情)与模板(如表情模板)的距离;通过这个距离,我们可以清楚明白这张面孔传递的信息。因为通过模板,信息得到简化,可以更高效分析。甚至可以说面孔的处理基本都是以这个方法进行,所以说面孔处理可以说在算法层面互有重叠(Calder & Young,2005)。

再具体一点,整体识别中的信息就是面孔上的二阶关系信息(second-order rational information)比如说五官之间的距离,嘴角的弯曲程度之类的(Maurer, 2002)。这部分信息与模板的对比就是笔者所提到的 ‘矩阵’ (用矩阵更方便理解)。基于篇幅原因不展开讨论。

简而言之,大脑处理面孔信息的时候,往往提取出面孔上信息的相互关系,以与模板距离的方法整体识别面孔。这就是大脑处理面孔信息 ‘算法’ 的一个简单介绍。

参考文献

Bruce, V., & Young, A. (1986). Understanding face recognition. British journal of psychology, 77(3), 305-327.

Burton, N., Jeffery, L., Calder, A. J., & Rhodes, G. (2015). How is facial expression coded?. Journal of vision, 15(1), 1-1.

Calder, A. J., & Young, A. W. (2005). Understanding the recognition of facial identity and facial expression. Nature Reviews Neuroscience, 6(8), 641-651.

Dilks, D. D., Cook, P., Weiller, S. K., Berns, H. P., Spivak, M., & Berns, G. S. (2015). Awake fMRI reveals a specialized region in dog temporal cortex for face processing. PeerJ, 3, e1115.

Haxby, J. V., Hoffman, E. A., & Gobbini, M. I. (2000). The distributed human neural system for face perception. Trends in cognitive sciences, 4(6), 223-233.

Hoffman, E. A., & Haxby, J. V. (2000). Distinct representations of eye gaze and identity in the distributed human neural system for face perception.Nature neuroscience, 3(1), 80-84.

Kanwisher, N., & Yovel, G. (2006). The fusiform face area: a cortical region specialized for the perception of faces. Philosophical Transactions of the Royal Society of London B: Biological Sciences, 361(1476), 2109-2128.

Kanwisher, N., McDermott, J., & Chun, M. M. (1997). The fusiform face area: a module in human extrastriate cortex specialized for face perception. The Journal of neuroscience, 17(11), 4302-4311.

Valentine T. (1991). A unified account of the effects of distinctiveness, inversion, and race in face recognition. Quarterly Journal of Experimental Psychology, 43A, 161–240.

Webster, M. A., & MacLeod, D. I. (2011). Visual adaptation and face perception. Philosophical Transactions of the Royal Society B: Biological Sciences, 366(1571), 1702-1725.

Yin, R. K. (1969). Looking at upside-down faces. Journal of experimental psychology, 81(1), 141.

Yovel, G., & Kanwisher, N. (2005). The neural basis of the behavioral face-inversion effect. Current Biology, 15(24), 2256-2262.

Zeth

如大多数人说的那样,机制未完全清楚。我从一个外行人的角度将目前了解到的部分信息进行粗略整理及推测

1. 时间上:

2. 空间上:和以下两个区域有关

FFA (Fusiform face area,不知道中文怎么译,梭形人脸识别区?)

ATL (anterior temporal lobe,前颞叶)

1. 时间上

用经颅磁刺激(经颅磁刺激)在识别材料出现后 40~50 毫秒对人进行刺激,发现这同等程度地影响人脸识别 vs. 身体识别、人脸识别相关区域 (rOFA) vs. 身体识别相关区域 (rEBA) 4 种组合下两个相关区域的活动程度;由此推测在这个时间段内,人脑对材料进行无差别的预处理 (Goldhaber et al., 2012)

用经颅磁刺激在识别材料出现后 100~110 毫秒对人进行刺激,发现只影响人脸识别情况下 rOFA 的活动,以及身体识别情况下 rEBA 的活动 (Goldhaber et al., 2012)。另外,脑磁图(脑磁图)研究发现,材料出现后 100 毫秒那一刻出现了一个和人脸识别相关的脑磁波(M100),它和材料分类的成功率相关,而和材料识别的成功率无显著相关 (Liu, Harris & Kanwisher, 2002)。由此推测在这个时间段内,人脑对材料进行分类处理

130~200 毫秒这个阶段,和它有关的就是比较有名的脑电波 N170。研究发现这个脑电波和结构编码有关 (Rossion & Jacques, 2008);而它的强度在进行明星脸、陌生人脸时无显著差异 (Gosling & Eimer, 2011)。简而言之,人脑在这个阶段对人脸的结构进行处理,但没有进行身份信息的处理

230~400 毫秒阶段出现的脑电波 N250,研究发现它在进行明星脸孔识别时有更强的负向信号(对比在进行陌生人脸孔识别时);由此推测在这个阶段,人脑对人脸进行身份信息的处理 (Gosling & Eimer, 2011)

400~700 毫秒阶段,研究发现在对明星脸孔进行识别时,左脑区的 P600f 显著更强(对比一在进行陌生人脸孔识别时);左脑区被认为有语言信息的特异性处理功能;由此推测在这个阶段,人脑进行人脸和姓名的配对(Gosling & Eimer, 2011)

2. 空间上

FFA 在人脸识别上的特异性已经得到比较广泛的认可,最初发现这块区域印象中是让人看人脸和房子的图片时做功能性磁共振成像,然后发现有一个区域只在看人脸时活动强度比看房子时大,这个区域后来被命名为 FFA。大概位置看下面两个图

最近几年发现了一个新的区域(位于前颞叶 ATL),这个区域同样只在看到人脸时被激活(对比看房子)。另外研究还发现即使是看倒立脸孔时,FFA 和 ATL 都被激活,而且识别成功率和 ATL 激活程度有显著相关,但和 FFA 激活程度相关不显著 (Nasr & Tootell, 2012)

参考资料

Goldhaber, T., Duchaine, B., Walsh, V., Pitcher, D., & Kanwisher, N. (2012). Two Critical and Functionally Distinct Stages of Face and Body Perception.

Gosling, A., & Eimer, M. (2011). An event-related brain potential study of explicit face recognition. Neuropsychologia, 49(9), 2736-2745.

Liu, J., Harris, A., & Kanwisher, N. (2002). Stages of processing in face perception: an MEG study. Nature neuroscience, 5(9), 910-916.

Nasr, S., & Tootell, R. B. (2012). Role of fusiform and anterior temporal cortical areas in facial recognition. Neuroimage, 63(3), 1743-1753.

Rossion, B., & Jacques, C. (2008). Does physical interstimulus variance account for early electrophysiological face sensitive responses in the human brain? Ten lessons on the N170. Neuroimage, 39(4), 1959-1979.


Viewing all articles
Browse latest Browse all 20608

Trending Articles