文/ 文心说
不知道你有没有过这样的经历:好不容易背下一堆单词,写作时迫不及待地用出来,而发下来的批改却被打上了几个大大的红叉。
你问老师,凭什么说我错?
老师头也不抬地说,这个词根本不是这么用的。
那一瞬间,你突然很难过,辛辛苦苦背了这么多单词,可自己根本就不会用。
然而,有这样一个工具、一种方法,能让你迅速学会一个单词最为地道的表达方式。事不宜迟,让我们赶紧来看看这个神奇的工具——语料库吧。
什么是语料库?
也许你是第一次听说这个词,也许你曾在不少地方邂逅这个词,却从未了解过它。不管怎样,今天,你都可以和它来一个亲密接触了。
让我们先来看一下维基百科上的解释:
语料库一词在语言学上意指大量的文本(text),通常经过整理,具有既定格式与标记;事实上,语料库英文 “text corpus” 的含义即为 “body of text”。
简单来说,语料库就是一个存储语言数据的地方。
语料库分为动态和静态两种,动态语料库指里面的资料会不断更新,而静态语料库则不会。语料库里收集的不仅仅是书面用语,还包含口语化语言,如演讲、采访等。
目前比较完善的语料库多为英语单语语料库,意思是只搜集了英文文本的语料库。今天我们的重点也在英语语料库上。
语料库可以很大,也可以很小。小的语料库通常为了一些专业化的研究,而大的则有许多用途。目前可用英语语料库中,最庞大的所搜集的文本单词量大于5亿。可见里面有多少值得研究、学习的材料。
语料库有什么用?
语料库的最初建立,是为了研究语言,因此它被广泛应用于语言学各领域。然而,渐渐地,人们发现,它对于语言学习同样非常有帮助。因此,越来越多的语言教学者开始将语料库应用于教学。
我们不是教学者,但仍可以学习使用语料库——它将大大提升我们的学习效率。
以个人经验而言,语料库对于英语学习最有用的几方面在于:
1. 学习单词用法
2. 辨析近义词
3. 学习介词用法
4. 背单词
接下来,我会一一讲解运用语料库进行以上四种学习的方法。
不过,在此之前,我们需要了解一下,哪些语料库可以用?
如何找到合适的语料库?
目前,可供大家免费使用的大型语料库并不多,如果需要购买语料库的使用权限可不便宜。在这里,推荐两个可免费使用一定次数的大型语料库:
The Corpus of Contemporary American English (COCA)
The British National Corpora (BNC)
以上两种是不限领域的大型语料库,也是我做研究时最常使用的两种。需要注意的是,注册后,根据账号使用者的资历,每天每个账号可搜索次数有限,如果真的有必要可申请多个账号。
另外,为了不浪费搜索次数,每次搜索完可将结果先保存下来。
除了现成的语料库以外,我们还可以使用语料库代替品,或者自建语料库。这些在以后的文章中再作为重点讲解。
运用语料库进行学习
接下来,我们将学习语料库最简单的几种操作方式,帮助我们高效学英语。举例中使用的是COCA。
1. 学习单词的地道用法
比方说,我们背了一个新单词 military,我们想知道这个单词在地道表达中该如何使用。这时,我们只需要输入单词,点击搜索,查询结果即可。
在Frequency一栏,我们可以看到这个词的使用频率,这个功能在这里不算重要。我们重点看的是Context一栏。这里展示出来的是句子的一部分,我们可以点击每一行 “context” 的位置,查看完整段落:
同时,你还能看到这段文本的来源。
如果你觉得这样看有些不方便,那有一个更加直观的方式。
来到搜索页面,点击左侧搜索栏上方的 KWIC (Keyword in Context),这时你将得到一个五颜六色的表格:
这个表格可就大有用处了。除了像上文一样,你可以查看完整文本,网站还自动将不同词性的单词标注上了不同颜色。于是我们可以看到,用在military这个单词后面的,一般是名词(蓝色方框)。
这个功能对于military这个单词来说可能不那么重要,但对于一些更高级、更具迷惑性的单词来说,就十分实用了。
如果你还想了解得更多,例如这个单词通常用在口语中还是书面语中,你可以返回搜索界面,点击 “Chart” 搜索。
这时,你就能看到这个单词在各种体裁,甚至各个年代的使用频率。
我们来看两个对比非常鲜明的词:talk,communication
着重看spoken和academic两栏,我们就能轻易判断出,哪个词是口语化表达,哪个词是书面用语。这样,写作文的时候我们就能尽量避免使用口语化词汇,而日常交流时,也就别勉强使用那些文绉绉的单词了。
有空就拿着生词表来这儿查一查,地道的单词用法就在不经意间被你一一收入怀中了,说不定还能顺带提高你的写作能力。
2. 辨析近义词
近义词的辨析不仅是英语学习中的难点,也常常作为各大考试的考点。很多时候,我们查词典查了很久,还是没能弄清楚两个单词具体的差别。这时,语料库便可以派上用场了。
举两个最简单的例子:tall vs. high
这两个单词翻译为中文都可译作“高”,然而此高非彼高,英语中几乎没有真正意义上的同义词。
相信不少人知道这两个单词的区别,不过,如果需要让你将它们的区别总结一下,教给学生,你有信心吗?不妨还是先用语料库来学习一下吧。
我们使用的是上文提到的KWIC搜索方式,对两个单词分别进行搜索:
这两个词都是形容词,用来修饰名词,因此我们着重看单词右侧蓝色加框的词汇(这些是名词)。虽然截屏中只能看到很小一部分结果,但我们已经能够得出初步结论:
Tall后面加的词语有building, tower, editor, fence, door等等,都是具体名词;而High后面常跟attendance, blood pressure, capacity, contrast, cost等抽象名词。
有学者曾对这两个词做过更加专业的语料库数据分析,结果显示,在BNC语料库中,tall与high的使用比率约为1:9,也就是说high这个词更常用。而在high的100个随机例子中,31个与“测量事物”有关,例如海拔等,而58个与抽象名词相关,如质量、频率等。
当然,我们不需要做如此专业的分析,但语料库的确能够在我们对两个近义词的使用很不确定的情况下,作为字典的补充材料,为我们提供更真实的数据。
3. 学习介词用法
介词是很多人英语学习道路上的拦路虎。记得中学时,一看到题目和介词有关,便会马上提高警惕。那么,我们该如何借助语料库,解决介词搭配的问题呢?
首先我们要了解一个概念:collocation,词的搭配。意思是一个单词通常与哪些词语搭配在一起使用。
接下来,我们就可以使用搜索栏中还未使用过的“collocates”一栏了。
举个例子,我们想学习put这个词的介词搭配。
首先,我们要选择Collocates这一栏(右侧可以看到对collocates的解释);接下来,我们输入单词put;下一步很重要,我们需要在下一格中选择prep.ALL这一栏,这是网站自定义的词性,选择以后,我们搜索出来的就只有介词(preposition)的结果了。
在搜索之前,我们还看到了一排数字,这一排数字的意思是,你的搜索范围控制在这个单词左边、或右边的几个词以内。例如我选择了左边0,右边1,这样,网页只会帮我统计出 "put+介词" 的搜索结果,不会显示 "介词+put" 或者 "put+其他成分+介词" 的结果。
然后我们就能看到结果了:
这就是put最常见的介词搭配,想看具体用法,还可以继续点进去研究:
那我们再来看看,如果我选择了搜索右边三个词,会有什么结果呢?
这时再点进去,你会发现,结果中的介词并不一定是紧跟动词的了:
于是,根据词汇的不同规律,我们就可以自由控制自己的搜索范围,进行搜索、学习了。
4. 背单词
如果你耐心地看到了这里,你将会收到一份高效背单词的秘诀。
由于语料库搜集了历年来的英语材料,可以说帮你网罗了所有英语刊物、演讲、访问等。因此,这里的高频词就是真正英语使用中的高频词。
你不必再担心 “背这么多单词是否用得上”,更不必费尽心思挑选所谓权威的词书。
COCA的词汇覆盖率非常广,背完了20000高频词,已经不需要再去专门记忆GRE、GMAT等词汇了。语料库官方提供付费的词频表下载,网络上有各路大神总结出来的COCA5000、7000、10000、20000等词汇表,扇贝、欧路词典上也能直接搜索到相关词书。在这里,我只介绍一下如何使用这些词汇。
如果不使用app,又不愿意付费,通常你得到的只是一个词汇表,连释义也没有。
这时,你可以借助一些能够自主导入单词表的应用,如ANKI,将词汇全部导入。但我不建议大家直接使用app自带的释义功能,而是自己查找一遍,查词的过程也是学习的过程。特别是对于基础一般的朋友们来说,如果能将5000高频词熟练掌握,英语水平会有一个质的飞跃。
在背单词过程中,我们还可以时不时使用语料库进行搜索,结合上文提到的三种方法,学习高频词汇的多种搭配与表达。
当然,如果你下载了官方资料,得到的词频表中不仅有词汇,还有高频搭配总结,相当于收获了一本最地道的搭配词典。
语料库还有许多更为强大的功能,例如学习翻译、研究特定文体的文本等,甚至可以间接教我们写作、创作歌词。
如果你还想了解更多,或者也许你就是语料库使用的大牛,欢迎留言分享。