日报标题:高度近视的我,摘了眼镜就完全听不清别人在说什么
这是个认知心理学中被广泛研究的问题。已有研究表明,视觉与听觉是会互相影响或者说交互(audio-visual interaction)的。所谓“交互”就是说听觉与视觉不一定是要互相干扰,他们相互作用、互为补充,最终的目的是让我们的知觉更加准确。下面先链接一个视频(McGurk Effect),著名的 McGurk effect,它说明视觉与听觉共同影响对语言的知觉(speech perception)。
视频中一分二十秒左右,左侧人做出“fa”的口型,右侧人做出“ba”的口型。如果盯着左侧人看就会觉得听到了 fa, 如果盯着右侧人看就会觉得听到了 ba,虽然其实听到的声音是不变的。
另一个我更喜欢的 demo,但不确定国内是否能看:The McGurk Effect
在这个视频里,女士做出的是“ga”的口型,声音是“ba”,但如果看着她就会觉得听到的是“da”或“tha”的音。
除了 McGurk effect,还有一些研究更直接地证明了视觉与听觉会互相影响。比如在 Kording 等人的实验中,他们给被试同时呈现一个亮光(视觉刺激)和一个声音(听觉刺激)。亮光和声音可能出现的位置有五个,它们可能出现在相同或不同的位置。如下图,最左侧一列表示的是亮光位置,从左至右共五个,最上面一行是声音位置,也是五个。被试的任务是判断亮光和声音分别出现在哪儿。
蓝线和红线表示的是结果。左侧第二列(no audio)表示在没有声音的情况下,被试对亮光位置的判断。第二列第一个图,蓝线在最左边最高,表明被试判断亮光在最左边的概率最高,向右依次降低。比如第二列第四个图,我们看到蓝线在第四个位置达到最高,说明被试更多地判断亮光在第四个位置。同理,上面第二行的红线是在没有亮光时被试对声音位置的判断,虽然出现的失误比判断亮光时多,但还是相对准确的。
那么在亮光和声音同时出现时呢?这里的结果是说对亮光位置的判断没什么影响,但对声音位置的判断有。我们看最右边一列从下往上第三个图(亮光在中间,声音在最右边),红线表示被试对声音位置的判断,我们可以看出正确率明显比没有亮光的情况下低。没有亮光时(最上面那个只有红线的图),被试们更多地认为声音在最右的位置。但有亮光切亮光在中间时,被试更多地认为声音出现在第四个位置。这说明对声音位置的判断被“拉”向了亮光的位置。不过亮光对声音的影响也有可能是促进,比如从下往上第二行,从右往左第二个图,亮光和声音都出现在左数第四个位置时,被试判断正确的概率比没有亮光时更高。这说明与声音出现在同一位置的亮光促进了对声音位置的判断。
那么,为什么声音位置对亮光位置的判断几乎没有影响,而亮光对声音的判断则影响比较大?这是说明相对于听觉来说视觉占主导吗?我与老师交流后觉得未必如此,观察到的“不对等”可能与这个任务有关。在这篇文章里被试判断的是亮光和声音的空间位置,对空间位置的知觉上确实视觉比较占优。比如我们用眼睛对一个物体定位很容易,但用耳朵对一个声音定位就相对不准确。但对于另外一些任务,比如时间上的定位(temporal localization,如两个出现时间间隔很小的物体 / 声音出现的先后顺序),听觉就比较占优。所以,视觉能“影响”听觉可能是因为在听觉这个维度上信息不确定性比较大。
Heron 等人(2004)的实验就研究了不确定性对视听觉交互的影响。在他们的实验里(如下图),屏幕上一共有三个白色刺激(文中成为 blob,可以理解为三个外周模糊的白色圆)。中间的圆(运动圆)可以水平运动,两边的圆(静止圆)静止。被试眼睛盯着屏幕中央,运动圆每次会随机出现在一个位置,然后往左或往右运动。当运动到屏幕中间某一个位置时,运动圆就会被弹回去(即往回走)。在圆弹回时或在此之前的 20ms 或 40ms 或 80ms 或 160ms,会有个声音出现。被试要判断这个被弹回去的点是在静止圆“连”成的分界线之前还是之后。如果视觉信息会被听觉信息影响,那么对弹回点的判断就会受到声音出现时间的影响。也就是说,如果声音出现时间比弹回时刻早,那么被试判断出的弹回点就会比实际的弹回点更“早”。
研究者控制的是视觉信息和听觉信息的相对不确定性(uncertainty)。比如,运动圆有时比较大(不确定性高)有时比较小(不确定性低)**。根据假设,不确定性高时容易被听觉信息影响。于是,圆比较大时,如果声音早于弹回点出现,被试知觉到的弹回点就会比实际弹回点早。而圆比较小时不确定性低,受到的影响就比较小,判断就会比较准确。实验结果也的确如此。
以上这些实验给以下观点提供了证据:
1,视觉与听觉可以互相影响,且它们进一步影响了其它认知功能(如对语言的知觉)
2,其互相影响的程度可能与信息不确定性有关,如果一个感觉通道获得的信息比较不确定,那么人们对于这一感觉通道的知觉更容易被其它感觉通道获得的信息影响。
我个人觉得,不同的感觉通道是协同工作的,根本目的是让生物对周围环境的知觉更为准确。所以这些结果也是情理之中,如果看到的东西比较让人难以判断,那么自然会整合听到的东西来帮助自己判断。不过这与因果推断(causal inference)也是有关的。在上面这个实验里,声音与弹回很接近,所以人们才会把两者关联起来。想象一下如果声音很早就出现了,比如在运动圆一出现时就出现了,那人们也不会因此就觉得圆很早就弹回了,因为此时声音显得与弹回一点儿关系都没有。
** 圆的大小与不确定性有关这一点也是有实验证明的,具体请参考 Heron 这篇文献。
参考文献
Heron, J., Whitaker, D., & McGraw, P. V. (2004). Sensory uncertainty governs the extent of audio-visual interaction. Vision research, 44(25), 2875-2884.
Körding, K. P., Beierholm, U., Ma, W. J., Quartz, S., Tenenbaum, J. B., & Shams, L. (2007). Causal inference in multisensory perception. PLoS one, 2(9), e943.