COCA 根据词频的统计提供了几个不同数量的词汇表,最大的有 6 万词汇。那么这个词汇表与我们常见的那些比较高阶的比如 TOEFL, GRE 词汇表有什么本质区别?
这些词表的本质都是基于单词的出现频率,比如 TOEFL/GRE 词汇表,它的选词就是来源于 TOEFL/GRE 这个考试中的试题或材料。那么出现在试题或材料中频率高的自然就会入选,其最大特点就是针对性强,适合应试。而 COCA 取词范围则非常广,而不仅限于某个试题库或材料库,因此更加科学和普遍。
COCA 只是提供了一个词表,告诉我们,这些词是使用比较频繁的,但是怎么去学习和记忆它们,却没有提供方法,所以这篇文章主要就讲讲该怎么看待这个词表,后续文章还会介绍该如何科学地利用这个词表提高自己的词汇。
先了解下 COCA 词表的局限
(1)不是所有的词的“同源异形”都出现在 6w 词频表中
比如 libel, 在 6w 词频表中,只出现了 libel
和 libelous
这两个词,其它的比如:libelant
, libeller
, libelee
等。
(2)不同的形态出现频率不一样
有些词,其源词出现词频靠后,但是它的其它形式却出现比较靠前,比如 abash
出现在第 44303 排名处,但是 unabashed
则出现在 16795 处。
同一个单词的不同释义,会出现多次
类似的,比如 barb(倒钩;带刺的话,讽刺)
,它的被动形式 barbed (讽刺的)
出现频率更高,protracted (拖延的
) 也比 protract
出现频率高,glittering(闪闪发光的)
比 glitter
出现频率高,woven (编织的) 比 weave 出现频率高
。这样的例子太多了,我就不一一列举。
甚至,有些词的词源并没有出现在 6 W 词表中,但是它的异形却出现了,比如 stomp "跺脚,重踩"
,不在词表中,但是 stomping
却出现在 27957 处。
hoof “蹄,脚”
也没出现在词表中,但是 hoofed
却在 37256 处。
(3)某些常见词在 6w 词表中没得到体现
比如 chore "家庭杂务;日常琐事"
,没有出现在 COCA 中年,但它却是托福和雅思词汇。
有些词的词频跟感觉相差很远,比如 low-ball
这个词是非常常见的一个词,但是在 COCA 中统计的频率比较低(在 45000 名左右)。
(4)与 TOEFL/GRE/Vocabulary.com 等词汇表的区别
GRE 中的很多单词,都出现在 6 万词表中靠后的部分。有些 GRE 单词甚至不在这 6 万词表中,比如 excogitate “认真想出,发明,设计出”
。
http://vocabulary.com 提供了 12000 的词汇学习。它与 coca 的词频重合度也有区别。比如 lurid “可怕的;色彩耀眼的
,就不在 coca 提供的 6w 词汇表中。
有些常见的事物或概念,在词频中出现可能并不高。比如 isle 岛,小岛
。
(5)词频的可靠性
coca20000 以后的单词,其频率意义不大,因为差别非常小。
coca 提供的最大的词汇本只有 6 W,因此很多词典上的词不会出现在这个词表中。
(6)有些词出现频率虽然比较高,但是记忆意义不大
比如 mackerel 鲭鱼,马鲛鱼
。这是一种海鱼,我们可能一辈子也见不到也吃不到这种鱼。很难建立直观的联想。所以即使背了,这种记忆也难以长期维持。
(7)无效单词
coca 词频一个很大的问题是,很多在平时单词书中根本不会作为新词进行背诵的单词也被列出了,比如那些缩略词,语气词,数字合成词,甚至有些商品名称等等。
总结:
COCA 词汇表不是一份拿来就能直接用的词汇表,它必须要加以处理才能变成适于背诵(实用的)的词汇表。
如果你对我的文章感兴趣,欢迎留言或者关注我的专栏。
微信公众号(ID:知辉)