抱着学习英语的目的,我最近在看一本英文小说《Fall of Giant》,中文译为《巨人的陨落》。 这个最近是多近呢?有点儿长,是半年。而很多网站上说,全球读者是平均用3个通宵读完这本书,而我为什么会用了这么长时间呢?这里交代下我的阅读过程。因为比较深信一回、二回生,三回四回会有点熟的道理,在看书碰到不认识的单词或是汉字时,我习惯要从字典查到它的发音和解释,以期知识能有些积累。因为是想着扩展自己的词汇量,我会有意识地在字典里显示出这个单词的释义后,闭眼几秒在大脑里重现下这个单词(在电纸书选住一个单词,就会弹出它的中英文解释,查字典花费的时间并不多)。说明这些,是想说明我看这本小说的很大一部分目的是学习单词,我确实也在有意识地学习。我一般是在上下班的路上,每天看1小时左右, 这样的话,总共的耗时是:(30 - 8(周末不看))X 6 / 24 = 5.5个通宵达旦。 你可以随意鄙视我的学习方法噢。随着阅读逐渐向尾声推进,我愈发觉得郁闷,因为在看到99%的时候,我还有单词不认识,还需要查单词!下面列出最后一章(Chapter 42 December 1923 to January 1924)我仍需要查词典的单词:bounty, snub, plowed on, punch-up, jibe, sermon,subdue, peroration。英语四六八级过了和没过的,都可以评判下我的英语词汇应该不算是菜到渣的那种。我也列出一些我通过这种方法掌握了的单词:boo,bowler,cobblestone,ideology, constituency,pithead,M.P., luxurious, defiantly,以说明我的学习方法,对我确有些效果。
因为这种郁闷,我萌生了一个疑问,为什么在短短的一章中,我至少需要在8个地方停下来?我看中文小说可是一气呵成,很少需要查字典的。也许你会说,这不是废话么, 你学习和使用中文多少年了?为了让答案不那么浅显和尝试一个可能更加量化的结论,我做了一些对这篇小说的分析工作。我也一并把我的数据和分析代码贴出来(以免感觉不适,代码贴图放在文末),以资备案和评审纠错。
数据材料:
统计分析的结果如下:
说明,在这个统计分析中,我作了下面的简化处理
1. 英语的构词单位是字母:26个,中文的构字单位是笔画:31个,二者在记忆、识别的难度是一样的。
2. 在发音上,英语有元音,辅音,中文有声母,韵母,二者量级相同。
3. 因为在英语语法中有名词的单复数,动词的几种时态,词性变化(比如:形容词+ly --->副词)等构词法,18254是没有考虑这些因素的词汇量,这个数值还是有些大的, 其实我尝试还找了一些其他理由以反驳英语的词汇量实际没那么大,比如,把人名,地名等不算作词汇,但这理由又有些牵强,完整叙事是不能没有人物和地点等专有名词的,而正是因为人名,地名等词汇的出现,使得英语的可记忆性降低了。为了结果更公允,我们假设有10000个单词是派生出来的。这样英语的基础词汇是8000多,仍然大于中文的3590
前面的统计分析说明:在记忆容量的要求上来说:英语要远高于中文,在精力消耗上来说,英语也要高于中文。
下面的图表明:有3000多些的汉字量,基本就可以表示完成信息的传达任务,而英语要达到这一目标,则需要的词汇量要大,并且词汇量的要求,随着场景变化而增大。
把上面的图换个角度,可以看出:中文,掌握单字量达到3500, 能够表示的信息量将不受限制;
英语:单词量掌握到7000,能表达的内容还很有限。
得出上面的结论:我是有些忐忑的,但愿我不是站在中文作为母语的角度上为自己的文字的优越性寻找冠冕堂皇的理由?如果,我的结论是正确的,文字也是一种技术,按照现在(比如KK)比较认同观点,人在使用技术,其实技术也在驯化人类。 两种文字是不是已经对它们的使用者完成了驯化?或者人类因为使用文字不同,又将会向何方发展?
考察文字的起源,历史,可能会是一个好的开始。我还没有研读过相关的资料,设想文字的起源是没有直接证据的,现有的研究成果都是专家们在考古发现的基础上推测出来的,我也不防大胆推测一把。数十亿年前,在地球上散落着多处远古智人的聚集区,智人已经能直立行走,经过自然选择,他们中有两支的后代进化成了我们要考察的种族,中国的我称为亚族,欧美的,我称为欧族,这两个种族谁先谁后,哪个早几百万年都不重要,重要的的是这两帮人彼此隔绝,生存环境也相似,一样危机重重,都靠打猎为生,都没有文字,各自的语言和文字将从这个时候开始萌芽、进化。人类生存,水必不可少,两个种族必然会接触的几种水的形态:河,湖,海,雨,对应的英语单词为:river,lake,sea,rain。从字面上来看,我们就知道中文的河和湖是有些关系的,而英语的四个单词,如果不知道各自的意思,不能看出它们之间的任何联系,这就是中文表意文字系统和英语表音文字系统的典型区别。接下来,让我们尝试想象一下数十亿年的场景,由于经常用水,欧人和亚人都能用嘴里发出声音来指示这种生存的必需品,欧人叫喊着 “wang te er,wang te er”,而亚人则是咕哝着“shui,shui”。这个时侯,水用哪种声音表示是没什么区别的。由于周围危机四伏,远古时候,人类的祖先都会苟且囿于面积很有限的一片区域,他们对江河湖海四种水域的接触必然有一个时间上的先后次序。假设,两族人只认识他们所住地的一些小水滩,从没见过“河”这种流动的水的样貌。有那么一天,欧人的祖先老欧由于某个原因跑到一个离聚住地较远的地方,发现了一条“河”,他很兴奋,急切地想把这个发现告诉族人。老欧幸运、安全地回到住地,激动地拉过来一个小伙伴,嘴里嚷着“rui wo er! rui wo er!”,那小伙伴应该是一脸懵懂,不停地表示“啥?啥?”,老欧也许是太激动,也许是已经形成的行事习惯,他嚷着把小伙伴拉到了河边。那小伙伴看到了河,也很高兴,小哥俩高兴地回到住地,又把更多的族人拉到河边,认识了“河”,至此“rui wo er”,这个发音,表示河,在欧族达成共识。 指示“河”, 把事物直接呈现在受众面前, 无数类似场景,不时重演,累万年,历亿年, 使得英语这种表音语言内容系统逐渐丰富了起来。指给你看,也成了欧族人主要的思维方式。我们再来看看老亚,他也在某一天在远处发现了一条“河”, 他也很激动,找到一个小伙伴,最里喊着“he!he!”,小伙伴也是一脸迷茫“啥?啥?”,老亚很焦急,你咋不懂我呢!该怎么办?也许是他太笨了,没有一下子想到要把小伙伴拉到河边,他抓耳挠腮半天,猛然看到边上有一小滩水,忽来灵感,他找到一截树枝,围着水滩划了弯弯曲曲的两道土痕,小伙伴似懂非懂,最终他们还是也来到了河边,小伙伴看到河,想象地上弯弯曲曲的两条,觉得有道理,又照猫画虎地向其他族人讲解“河”,最后,族人们也都来到了河边,也见识了“河”,在这个过程中,族人们也有人隐隐感觉两条弯弯曲曲,中间有水,跟“河”有点儿像。经过河的事件,表意的文字系统有了萌芽。也许,这种像的感觉,每次都很微,很弱,转身就消失得无影无终。但是,经过数百年,数万年,数亿年的类似场景的重现,积累,表意文字系统逐渐形成了。我猜想,在某些时候,亚族人是体会到表意这种表达方式好处了的,比如,族人正面临食物短缺,有个人发现了一个湖,湖里有鱼,而湖和鱼,族人以前是没有概念的,如果这个发现能在第一时间传达出来,族人能节省无谓的往返劳顿,有时候,这种及时性甚至是种族延续的重要条件,比如描述从没见过的正在向聚结地走来的重没见过的野兽。体会到好处,表达方式字面上的意义化,慢慢演变成一些族人有意识的行为。我猜想,表意,慢慢也成为了一种亚族人的主要思维方式,在一个群体中,如果大多数人具有相似的思维方式,他们会形成相似的交流方式,相似的习惯,进而,一种习俗,一种文化慢慢的孕育,形成了。
最后,附上相关程序:
CountWords.py
最后结果是,单词总数为369409万,单词量:18254
CountEnglishCharacters.py------统计人物用到的单词量
运行结果为,人名的词汇量为155:
CountCapitalWords.py-------统计英文版本中用于人名,地名等专有名词的单词
统计结果,3315个专有名词词汇:
CountChWords.py统计中文版的文字量:
结果为总字数:595778, 单字数:3598:
词汇量是2500时,表达的信息量:65163字数
词汇量是3000时,表达的信息量:181219字数
Overall_charts.py: 生成中英文对比图
输出: