我看到题主说读 Eprime 的手册时遇到了“单词都认识,但是句子意思不明白?”的问题,恰好 Eprime 的手册我也读过,恰好也有过题主这样的困惑。魏大所说的一词多义、文化背景、对于 Eprime(心理学实验呈现实验材料的一个程序软件)的手册来说,其实恰好不存在除了魏大所说的一词多义、文化背景和语法能力的问题,简而言之,一本说明书,它其实是希望用最最简单明白的词汇和语法讲述最最最能让人容易理解的操作步骤,对于说明书来言,也没有太多文化背景的问题。它就是需要告诉一个不会用这个软件的人能学会用这个软件,不需要有会用软件的背景。当然需要实验设计的一些术语知识,比如 block,item 等等。
那么,如果我们就是的确知道、认识、了解所有的单词,包括它的僻义、它经常配对的邻居,而语法也掌握,可是我们就是感觉读不懂这句话,是怎么回事呢?如果稍微停下来想一想,其实我们在阅读母语文字的时候,也会有这样的情况发生。所谓的,看是看了,但是没进脑子的结果。那如果其实我也非常集中注意力的看了呢?
在阅读过程中,我们的大脑必须在较短时间内保存、处理加工印入脑海的新信息,并提取已知信息从而和新信息进行比对、匹配,得出对新信息最佳的理解方案。这个过程,是由我们的工作记忆来完成的。而在英语阅读,也就是第二语言阅读过程中,除去对句子意义本身的加工处理,我们又多了一层语言方面的加工处理。因此,工作记忆捉襟见肘。
英语阅读过程中,工作记忆要分配处理三个方面:
- 单词意义的提取和加工;
- 语法的提取和加工;
- 句子意义、句子信息和已有信息的关系、句子之间逻辑关系的厘清。
第 1 和 2 在母语阅读加工中所消耗的工作记忆是非常少的,因为我们对于母语的加工和处理是自动化的。而在第二语言阅读过程中,工作记忆容量有限(Miller 1956,提出工作记忆处理信息的容量大概是 7 个“块”)局限了三个方面的共同完成的完美处理,1 和 2 尽管能达到准确,也就是很多学习者感受到的“所有的单词都会”、“句子也读懂了呀”,但是却在 3 上出了问题,因为工作记忆资源大部分调配给了 1 和 2,而 3 却没人理了。
这说到底还是因为 1 和 2 没有实现自动化,就是虽然你懂,但是大脑加工和提取的速度太慢,占用工作记忆资源太多,所以分配给 3 的工作记忆资源太少,甚至没有,才出现了“单词都会但是读不懂”的现象。当然,也不排除有的阅读材料在 3 上体现的太难、太复杂,包罗的逻辑关系太复杂、抽象程度太高,那么就算工作记忆资源全部给了 3 还是理解的非常困难。比如我读英文版的 Eprime mannual 的时候觉得算了为了赶紧把程序编出来我还是看中文版的吧,然而,中文版的我也看了好久……(为自己的文科脑子感到骄傲。)
不管是以上哪种缘由,我们能做的,只能是放慢速度,反复、重复地去理解句子的意义,当工作记忆有意识地调配给 3 时,自然对 3 有了更深的加工。
然而,本篇回答的重点在于,1 为什么没有实现自动化?就是单词意义的提取和加工为什么没有实现自动化?这个单词我认识、理解、知道它要使用的场合和它的熟词僻义,为什么我对它的加工和提取还是没有实现自动化(就是处理的很慢)?
接下来要讲一个关于第二语言词汇学习非常悲哀的故事,希望大家不要被打击到,反正我是被打击到了。
宾州州立大学的李平老师(男神之一,温柔儒雅)在 2002 年就提出过 DevLex Model,这是一个基于通过计算机模拟人脑语言(主要是词汇)学习的模型,所以是基于计算语言学的二语词汇习得的模型(插一句,计算语言学方面我不是很擅长,下面的文字基于我对李老师研究的理解,有计算语言学方向的同行,欢迎批评指正,不要让我误人子弟了。)
该模型主要是通过给计算机设计两种加工信息(这里的信息也就是语言材料)的原则:
1.Hebbian learning:是一种统计学习的规则【什么是统计学习?简而言之,出现的次数越多,那么通过统计学习就越容易记住,某种特征越明显,也越容易通过统计学习记住这种特征模式。人天生具有统计学习能力。那么计算机统计什么呢?统计单词的语音、拼写、组合、出现的场景、出现的频率、句子中的位置,等等,这些一个单词该有的信息】;
2.Self-organizing:自组织规则。【就是自己组织一下上面统计出来的具有相同特征的东西归类到一起】
这两种原则相互加强、相互帮助。那么,一个计算机设置好这样的原则之后,李老师就开始给它输入语言材料了,一共分了十次输入阶段(ten stages)
从上到下、从左到右,分别是 stage 1(输入了 50 个单词的语言材料),每一个 stage 输入 50 个单词的语言材料,所以,stage 3(输入了 150 个单词的语言材料),stage 5(输入了 250 个),stage 10(500 个单词),所以到了第十个阶段,单词出现了边界清晰的词性分类,这上面的 verbs,nouns 不是计算机显示的,是研究人员根据这种现象打上了 label(因为动词、名词什么的明显聚在了一起)不仅仅出现了词性的四大分类,每一个分类下面也出现了语义聚类。
这是一个输入英语作为语言材料的模拟,而这个计算机模拟和行为研究不谋而合,因为其他研究者也的确在研究儿童母语习得的现象中发现:
- 儿童可以学会语言类别,比如名词、动词、形容词的分类。
- 儿童早期的学习比较缓慢,而且是非线性的。18-22 个月只有 50-100 词汇量,但是等到两岁半,会进入语言习得的爆发期(vocablulary spurt,explosion)
那么,DevLex model 就模拟出相似的“学习轨迹”,后来学习的单词都建立在最初的 100 个单词,早期所学的词汇知识变成了后来所学的词汇知识的一个框架,成为后来单词聚类的催化剂和吸铁石。
自组织模型需要建立一个算法(algorithm),所以开始的学习会比较缓慢,但是,当表征的模式建立,意义和形式的链接就会不断加强,随着意义和形式的联结加强,模型也越来越被稳定。自组织模型负责规则的提取,而 hebbian 学习负责语义发音和意义的映射,二者相互加强彼此促进。
这个模拟模型除了在英语上,在其他各种语言上都实施了,都显示出相同的效果。但是,存在一些跨语言的差异。比如说中文(Thank god 李老师是中国人!)就和英文呈现的不太一样。英语儿童的词库体现出名词学得更好更快,但是这种名词优势在中文和韩国语小孩中却不存在,中国小孩儿的动词反而是先学会,中文的动词还有比名词习得数量更多的趋势。做行为实验的学者猜测,可能是跟父母的语言输入有关,比如有学者发现中国爸妈在养育时婴儿更喜欢输入动词【插一句个人经验:美国小孩儿学动词特别费劲儿,不知道是不是因为他们爸妈在他们小时候不好好给教动词!】Li 通过计算、考察词频和单词长度,认为中文的动词相对发音长度和词频出现都比英文的动词单词长度和词频高,所以可能更易习得——一个基于计算语言学视角的解释,我觉得更有说服力。
以上都还只是计算机模拟母语习得的部分结果,那么,我们来看看计算机模拟二语词汇习得的结果。
和前面的母语实验差不多,本实验就是把两种语言输入同一个算法中,输入的两种语言材料来自儿童口语语料库 CHILDES 中的父母语料(就是婴儿可能真实接触到的父母口语),就是希望能真实的还原婴儿所接触的周遭语言材料(同时为了比对时间带来的影响,两种语言材料的语义进行了严格的匹配)。
步骤:
1.英文 + 中文,各 50 个单词,一直到 500.【先建立 model 的算法,就是说计算机有了学习两种语言的能力,先实现能像婴儿一样的学习能力】
2.1. Early learning,L2(中文)稍微晚于 L1(英文),先来 100 个英语单词,然后 50 个中文单词进入计算机,然后 50L1+50L2 这样的配置,10 个 stages 之后结束,一共要有 500 个 L2(中文)进入计算机。
2.2 Late learning,L2 在 L1 学了 400 个以后加入,然后 L2 进入,最后也一共要有 500 个 L2 进入计算机。
于是出现了如下图
早期的二语词汇学习如 A 图 early learning,中文自己形成了一个边缘清晰的大岛,而晚期的二语词汇学习如 B 图,中文是分散的小岛,此时,新学的 L2 就只能利用以及建立的 L1 的结构和联结之上了。寄生于 L1 之上。
那么,回到题目上,第二语言学习者在第二语言的使用上就会表现的更慢,也具有产出困难,可能就是因为 L2 词汇周围有很多高密度的母语词汇,从而会带来影响,周围的母语词汇都在和二语词汇发生竞争。也就是在影响我们 L2 词汇的提取和加工速度。
把上面的模型中中英文互换一下,因为我们是英语二语者,这个悲伤的故事结束了。