为什么汉语是世界上最先进的语言之一（第二版）

2018-04-24摘自“龙的天空”（http://www.lkong.net/thread-715623-1-1.html）

发表于 2013-2-16 14:49 |本文最后由冷酷的哲学于 2013-09-14 15:23 编辑

首先要承认标题只是个噱头，语言学一般认为语言没有先进落后之分。大家都有自己的看法，见仁见智吧。但是总看到有人在争论到底汉语是先进还是落后。虽然我不是专业人士，但是就用点通讯和存储上的概念来聊聊为什么汉语是一种非常先进的语言。需要注意的是，虽然以下的论证都是基于实际的实验数据，但是计算都很粗糙，而且实验的规模都不大。换句话说就是，虽然在这里汉语占优，但是换一批实验参与者，可能就倒过来了。现在实在没有什么特别全面的测试。所以下面的数字大家看看就行，不必太过认真。世界主要语言的效率其实都已经达到当前人脑的一个瓶颈了，总体看差异不大。我的目的也主要是打击一下逆向民族主义者。

一、语言水平高低的评判准则

口语，放在今天来分析，实际上是一种通讯协议。就是说，语言实际上是把人的思想通过发音器官变成一串频率不同、波形不同的声波，然后有另一个个体的听觉器官和相关的脑部组织重新转变回思想。通讯协议，就是一个规则，一个规定了应该如何把思想/信息转变为易于传输的信号的规则。计算机上，通讯协议基本上有这么两个评判标准：传输效率和抗噪能力。所谓传输效率，是说，在单位时间里，按照该通讯协议能够传输多少信息。所谓抗噪能力，是说这种通讯方式能够在多大的噪音下仍然保证绝大多数信息正确传输。

传输效率又有两个方面，一个是编码效率，一个是传输速度。编码效率是说，这个通讯协议能够把一个信息用多短的一串信号来表达。传输速度是说一段信号，能够以多快的速度传输。

评价一种语言的口语是否先进，就要分析上面这几个问题。

文字，则是一种数据存储方式。存储格式的要求与通讯协议不同。存储格式要求存空间小、读写速度快。相比于读取速度，书写速度是次要的。这是因为平均下来一次书写对应很多次阅读，而人在阅读文字上花的时间一般远远大于书写。尤其是现代社会，手写越来越少，计算机输入、打印、印刷都大大加快了记录文字的速度。而阅读速度却没有多少提升。因此在现代社会，阅读速度就在定义文字水平上占据了更重要的地位。

需要注意的是，下面的讨论中“音节”均采用西方语言学定义。粗略地讲就是一组连续元音与其前后的辅音共同构成一个音节。比如To、Bliss、Strength是单音节，汉语Ba、Chuang也是单音节。虽然单音节词的发音长度并不完全相同，但至少是可比的。

二、语言的分类

这个世界上的语言大致分为两种，一种叫做分析语（或称孤立语），一种叫做综合语（其下又划分为黏着语、屈折语等子类型）。简单地说，综合语可以通过改变词的形态来表达不同的意思。而分析语则单纯通过词与词之间的关系来表达不同的意思。

我们举个简单的例子：

中文（分析语）：我昨天告诉他了。

英文（综合语）：I told him yesterday.

英文你首先可以看到told和him两个变形。其中把tell变成told表示过去发生的动作，把he变成him表示客体。而中文用昨天来直接指明时间，如果不指明时间则需要用“已经”、“过”之类来表示过去，而并不改变词的形态。中文还通过各自的位置来体现谁是主体谁是客体。

实际上，英语已经是综合语中非常接近分析语的了。比方说英语的未来时态用的词形和一般时态没有区别。而很多其他语言中不同的时态都是用不同的词形来表达的。再比方说英文对于各个词的位置有明确的规定。而很多其他综合语，诸如拉丁语中，词的位置可以不固定。换句话说就是可以说出这样的句子：Him yesterday told I。然后通过词形里的主格词形和宾格词形来判断究竟是谁告诉了谁。

这是非常糟糕的，因为在读取的时候，总是有先后的差别。我们希望的读取顺序是：先读取我们的大脑需要先处理的部分。分析语天然就有这种优势。很多综合语在逐步的发展中也确立了类似的规则，比如拉丁语的后裔之一——法语。

上古古汉语也曾是一种综合语。但是由于汉字的限制，古汉语的词形变化仅存在于口头中。比方说文言文中的使动用法，如“文王以百里之壤而臣诸侯”中的臣（使臣服），在上古时期，是需要在汉字发音前加“s-”音来标识的。这就是一个典型的综合语的词形变化。

有人认为现在的汉语仍然带有一定的综合语色彩，他们认为加入诸如“了”、“的”这种助词实际上就是词的变形。这种看法就只能见仁见智了。

从整体发展趋势来看，世界各地的口语都是从综合语向分析语发展。虽然不能说分析语就一定优于综合语。但是这个趋势说明分析语的某种特性符合历史的发展。这个优势就是数据的压缩。

三、数据压缩：分析语的高超之处

当年计算机发展到了新的时代，人们开始研究如何在计算机上存储视频文件。一开始的方案极其简单，就是把一帧一帧图像全部都存储下来。但是这无疑是低效的。因为这里面的冗余信息太多。举个简单的例子。一个夜晚的场景，画面上很多地方都是黑的。何必把每一个点的色彩反复记录呢？所以接下来的一个思路就是，不再存储每一帧图像的完整信息，而存储下一帧图像与上一帧图像之间的差异之处。两幅图像中颜色一样的部分全部跳过。

分析语恰恰就具有这样的效果。举个简单的例子。一个人在用汉语谈论昨天发生的事情时，只需要一开始提及“下面这些事情都发生在昨天”，后面就再也不必提及时态了。而英文，则需要反复使用时态来表明这事情发生在过去。在交流时你需要时刻考虑时间、主格/宾格、数量、主动/被动。这对交流是有影响的。当然熟练使用这种语言之后会大大降低考虑这些的时间，但是即便熟练的综合语使用者还是会在这方面犯错。在上下文的帮助下，这些变化都可以省掉。时间变形，可以依靠在第一句中加入时间状语完成描述，其后描述相同时间段的句子就再也不用考虑描述时间了。这就是分析语的数据压缩能力。

当然，这并不是说分析语就一定优于综合语。在缺乏上下文的情况下，一句综合语可以用比较简单的形式传递比较多的信息。但是随着人类社会交流量的上升，一次交流的上下文就变得丰富起来，很多在单词、单句的条件下很有效率的信息交流方式，也就显得越来越冗余了。因此世界上的各个主要语言纷纷向分析语靠拢。

另外，有的人认为分析语劣于综合语，他们是这样说的“综合语只用几个字母组成一个词缀就能表示一个特定含义，而汉语做不到”。这就是没有看到，在当今世界上的实际交流中，上下文总是很丰富。这种变形的方式在单句下很有价值，但在实际交流中就没有什么意义了。

关于各个语言的表意效率，也就是信息密度，2011年法国里昂大学做了一个实验。http://www.time.com/time/health/article/0,8599,2091477,00.html（http://ohll.ish-lyon.cnrs.fr/ful ... o_2011_Language.pdf）

这个实验里，研究者找了59位不同语言使用者，其中包括英语、法语、德语、日语、汉语、意大利语和西班牙语。为他们提供了20段文字，这些文字都翻译成各自的语言。然后请这些人分别用正常语速朗读。研究者全程录音。

然后研究者计算所有音节数量，计算朗读中表现的义项（表意的基本单位）的数量，然后得出结论。当然，这个实验并不能完全准确地表现各个语言的差异，但是还是可以用来定性的。

其中，汉语信息密度为0.94，位居第一。英语信息密度为0.91，位居第二。另外值得注意的是，距离分析语更远的法语（0.74）、德语（0.79）、意大利语（0.72）、西班牙语（0.63）的信息密度，都比到英语低。而日语信息密度为0.49，有人认为这是因为日语的表意方式与其他语言不同。

此处信息密度是通过计算每个音节所包含的义项数量来获得的。由于义项的数量是从原始文本——英文版里统计的。而翻译之后有可能会增加或减少义项。为了防止翻译过程中的扭曲造成数据标准不统一。各个语言的文本都被单独翻译为越南语，然后与各自越南语文本中每个音节所包含的义项数量相除，最终得到比较公平的数据。

这让我不由地想到，经过大规模注水的现代汉语信息密度还是这么高，那么文言文究竟已经高到了何种地步？很遗憾没有这方面的研究。不过，根据使用频率进行加权平均，现代汉语平均每个词中的字数差不多是1.5左右。在文言文中，其中很多都是用单音节词表达的。折中一下，我猜想文言文的信息密度达到现代汉语的1.25倍应该是不成问题的。这在古代更是个恐怖的数字。因为拉丁语可不是比现代欧洲各主要语言简单。受到古代文字记录空间的限制，汉语的显然在文字记录方面更加占优。这也许就是我国古代文字记录非常丰富的原因所在。

有人质疑说，有时候一个很长的音节意思很简单，而一个很短的单词意思却很复杂。这种情况当然是存在的。我需要说明的是，所有复杂事物的优劣都是一个统计概念，“高”并不是绝对在任何条件下都高，而是在大多数情况下高。如果一种语言平时交流平均下来就是比另一种语言多用一个音节，那么很显然其表意效率都是很低的。

还有人说，音节不能作为衡量信息密度的单位，因为不同的音节，发音长度很不一样。这个问题提的非常好。事实上我下一节就要讲到英语与汉语发音长度的问题。英语单音节平均发音长度比汉语长。因此在口语的信息密度方面，汉语的优势更大。

值得注意的是，可能由于汉字与读音是分离的，理解和朗读无法同步进行，所以用汉语朗读，就会比较慢。里昂大学的这个实验中，汉语朗读者每秒朗读5.18个音节。大大慢于其他语言（英6.19，法7.18，德5.97，意6.99，日7.84，西7.82）。因此在朗读中，汉语传递信息的效率比较低，换算出来的朗读信息传递效率为英1.08、法0.99、德0.90、意0.98、日0.74、中0.94、西0.98。

当然，以上里昂大学的研究也受到了一些批评。有人觉得做的太糙了，而且有些地方不能自圆其说。比如按文中数据明明日语表意效率明显低，但作者又说其实一分钟内各个语言表达的信息量是差不多的。

四、传输的优势：声调

口语信息的传输，是通过声音完成的。声音一般分为四个部分：音质、音高、音长、音强。对于语言的一个音节来说，音质指的是其中辅音与元音的组合。其他三个都很好理解。

一般现代语言不太规定音强，因为这实在无法在各个人之间得到统一，而且受到说话人的距离、情绪、身体状态等影响。此处需注意，英语中的“重读”，实际上是音高变化。

而剩余的三个元素，则都在语言中得到了广泛的运用。

我们拿汉语举例，音质很容易理解，就是发音除去声调。而声调本身则分为音高和音长两项。

汉语普通话的四声，是四种不同音高变化模式。一声是保持音高。二声是音高由低到高变化。三声是音高从高到低再到高。四声是音高由高到低。虽然我们当年语文课里说轻声是没有声调，但实质上轻声是缩短音长。轻声一般是缩短音长的四声或一声（有时音高很低）。不过轻声很短，比较难以听清，所以普通话中仅作为特定用途使用（语气助词、复数标志等）。

英语的重读实际上是音高的差异。所以严格地说，英语是有声调的。只不过英语的音调只有两个：高和低。但是英语中音调仅用于部分音节。除了表示疑问、强调等情况，通常英语单词不变调。除少量英语单词（如Record）外，英语单词不借助音调来区分不同的词义。英语的确使用音长要素（如Sheep和Ship）。由于英语一般只用音质和音长来区分词义，所以一般也认为是一种没有声调的语言。

首先从编码效率上，我们可以说汉语就是世界上编码效率最高的语言之一。汉语是世界上为数不多的使用音高来区分不同单词的语言。因此从编码上说，汉语发音的表意能力就比一般语言高出一个维度。也就是说，使用单个音节，汉语能够表达的不同信息的种类，理论上最高可以达到一般外语的4倍。

为什么外国人学汉语学得这么辛苦，而中国人学英语则没有那么辛苦？就是中国人是已经掌握了在发音是音高变化，现在再去学低级的两个固定音高。而在学习汉语中，很多外国人最吃力的问题之一就是声调，因为只习惯于两个固定的音高，而没有听到过、练习过在发音时连续变化音高。

有人提出，声调本身会影响发音速度。这当然是存在的。比方说二声，要求发音时音调逐渐上升，要表现出这个，发音时要表现出两个音调，自然是要比单一音调要费事。但是声调的好处在于，能够在同一组辅音和元音组合的基础上产生出多种不同的发音，所以就不必借助更多的辅音来区别两个具有类似发音的词（比如英文life和light）。英文音节中，辅音-元音组模式的音节，发音确实比汉语略快。但是其他模式，诸如辅音-辅音-元音组-辅音（Blight），或辅音-元音组-辅音，往往就比汉语发音慢了。而辅音-元音组模式的音节，由于英语缺乏音调，所以数量远小于汉语。整体平均下来，英语单个音节的发音应慢于汉语。

对于“英语单个音节的发音应慢于汉语”这个结论，可能有的人觉得不是很信服。我们来举一个非常简单的例子。普通中国人的初等数学能力往往超过欧美。这并不简简单单是教育的问题。更关键地，这是中文对数字命名结果。

汉语所有数字均为单音节，其中6和9有两个元音（或按照国际学术标准，三个元音），发音稍慢；0有后鼻音，发音可能稍慢。还有几个带卷舌音，可能会稍慢。

英语所有数字，除7以外，全部都是单音节。其中覆盖了“辅音-元音”结构（如4）、“辅音-辅音-元音”结构（如3），“辅音-元音-辅音”结构（如5），“辅音-元音-辅音-辅音”结构（如6），元音-辅音结构（如8）、双元音结构（如0，注意一般数字里0读“ou”，不读zero，后者实在太费劲了），等等。可以说英语的这些数字大致包含了英语的各种单音节词的音节结构。当然这里还没有最神奇的辅-辅-元-辅-辅结构，但是那个和单元音结构一样比较少见。

那么平均下来英语的数字比汉语慢多少呢？

首先我们需要知道，人对数字的短期记忆，实际上是对数字发音的记忆。换句话说，你能记住的数字位数，是由数字发音的总长度决定的。研究表明（见http://deepblue.lib.umich.edu/bitstream/handle/2027.42/26140/0000216.pdf?sequence=1），中国人从小开始短期数字记忆能力就高过美国人。该文献说明美国大学生的数字记忆长度平均为7.2位，中国大学生为9.2位。美国大学生的短期数字记忆位数，是中国学生的78.26%。换句话说就是，英语数字的平均发音长度比汉语数字高27.78%。去掉英文数字7（双音节）对平均音长的影响（10%），那么平均下来，单音节英语发音长度大概比汉语高17.78%左右。

更进一步，中国的数字都是彻彻底底的单音节，因此可以采用绝对逻辑的方式构建整个数字表。九十六，就是九个十加一个六。英语是“九十”（与九和十都不同的特殊词）加一个六。法语是四个二十加十六。汉语种最简洁而最富逻辑的结构，在世界上是极为罕见的。九九乘法口诀表，就是构建在这个基础上的。其他国家的儿童如果想背下来这张表，可以说比中国儿童难了几倍。这种语言上的优势就提高了中国人的初等数学能力。

顺便，还有人说，古汉语声调更多啊，难道汉语越发展越回去了么？这当然是错误的。有些音调受说话者情绪等条件的影响，在辨识的时候不确定性因素比较多。这个问题我们将在抗噪能力一节中详细讲解。

五、信息论上的优势

从信息论角度来考虑，编码是很有学问的。举个例子。我们知道计算机传输信息，实际上传输的都是0和1。那么，如果我们传输的各种信息出现的频率不一样高怎么办？答案是，出现越频繁的，编码越短。这样就能提高总体效率。

比方说，我们只有四种信息要传递。按一般的想法，自然是把这四种信息分别用00、01、10、11来表示。每个信息都需要用两位二进制数来表示，也就是说传播100条信息需要发送200个二进制数。但是如果其中有一种信息出现的概率是91%，而另外三种分别是3%。那么就可以使用另一种编码方式：1，01，001，000。平均下来这种传播方式传播100条信息需要发送1*91+2*3+3*3+3*3=115个二进制数。显然比前面那种效率要高。

世界各主要语言经过了几千年的进化，其词汇的长度分布，都比较符合信息论的要求。你会发现各个语言中越常用的词，一般就越短。英语里，我、你、他、她、我们，都是单音节词。

英文的单音节词非常丰富，实际上比中文的单音节发音要多，这是因为英文可以在一个辅音-元音组合的前后都添加辅音，来实现各种不同的单音节发音。这样排列组合下来，英文的单音节词就是一个比较庞大的词库了。但是这就有一个代价，就是抗噪性能低。这个问题我们放在下一节讲解。

按西方音节定义，英语的单音节词的使用比汉语要频繁。根据统计分析。汉语使用者平均词长约为1.5字上下。（见《ReadingChineseScript: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese andEnglish Text》），而成年英语使用者平均每词音节数约为1.4（见http://www.waisman.wisc.edu/phonology/pubs/PUB30.pdf，这也得到了另一个研究的支持：分析10小时的发听录音，平均每词音节长度为1.38）。

所以，就音节数而言，汉语词平均比英语词长7.14%。然而，考虑到英语一个音节比汉语单音节实际上长得多（即便把上一节得到的17.78%折半，也有8.89%）。再加上汉语每音节信息含量大致比英语高3.30%（见第三节数据）。从信息论的角度讲，汉语的信息传递效率基本上比英语高。（是的是的，我知道信息论的计算还需要更多的数据，只有平均值是不够。但是实在找不到啊，只能草草估计了。）

这一点也得到了另一个实验的验证（见http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111932/）

这篇论文找了8个汉语使用者和8个英语使用者。然后让他们两人一组。一组之中，一个人描述图片（描述者），另一个人根据描述来绘制（绘画者）。最后对比图片的准确度。同时观察描述者的语言。

最后结果是，汉语描述者明显比英语描述者先开始描述。描述者开始描述与绘画者开始绘画之间的时间差，汉语使用者低于英语使用者。绘画时间，汉语绘画者低于英语使用者。整体时间，汉语组显著低于英语使用者。所以汉语组所有都比英语组快。而且越复杂的绘画，汉语组就快得越多。

绘画结果，144次绘画。汉语组平均每次犯8.1个错误，其中描述者平均每次犯3.7个错误，绘画者犯4.4个错误。英语组平均每次犯13.25个错误，其中描述者平均每次犯8.5个错误，绘画者犯4.75个。两者的差距仍然在统计误差之内。所以并不算显著。（嗯？刚才谁说汉语没有英语精确来着？）

之后，为了考虑绘画者的技巧差异。让每个绘画者直接对照原图绘画。结果汉语组反而慢于英语组。

绘画期间，汉语组使用音节数显著少于英语使用者。两组语速（每秒音节数）接近（这个结论与前面的播音速度分析结果一致）。

这虽然是一个初步的实验，但是还是能看出汉语在交流上的优势的：用词更少，时间更短，描述精确水平差不多（如果不是更高的话）。这个实验还说明了……我国人民美术水平还有待提高……

至于欧洲主要其他语言，根据第三节提到的数据，它们发音频率比英语高，信息密度比英语低。要那些语言在这方面超过汉语，我觉得可能性不大。

六、组词逻辑

由于英语单音节词资源比较丰富，但平均发音长度较长。所以你会注意到英语里单音节词比例高于汉语，而多音节词的使用比例就小于汉语。很多逻辑上非常相关的词由于不得不全部挤入有限的单音节词库，其发音就失去了联系。这就导致英语的常用词往往缺乏组词的逻辑。

比如我们可以很轻松地说“公鸡”、“母鸡”、“小鸡”、“鸡蛋”。而英语里就成了“Cock”、“Hen”、“Chick”、“Egg”，毫无联系。如果常用词要建立联系，那么英语就必须提高这些单词的音节数，那么平均词长就要上升，从信息论角度讲，信息传递效率就更低了。所以英语只能在组词的逻辑性上进行妥协。

相比之下，汉语就从容的多了，即便在当前这种信息效率下，汉语仍然能保证绝大多数词语构造具有逻辑性。因此相比于英语词汇，汉语词汇就比较容易记忆。这就产生了一个结果，那就是汉语的常用词汇量远远多于英语。

英文使用者的单词量和生词辨识能力可见1995年的以下论文：http://jlr.sagepub.com/content/27/2/201.full.pdf

其中，大学生平均自称单词量为16141，经过多项选择测试发现，平均能够辨识其中71%的词汇。也就是说平均大学生词汇量估计为11460个单词。老年人平均自称单词量为21252，经过多项选择测试，发现平均能辨识其中80%。也就是说老年人的词汇量大致为17002。对于从未见过的词的正确理解概率，大学生为30%，老年人为39%。

没有找到中国的相关研究。不过这里是商务印书馆的《现代汉语常用词表（草案）》：http://wenku.baidu.com/view/51636fec551810a6f5248676.html

大家可以进去看看自己的词汇量。我感觉大学生达到五万应该不成问题。而且这肯定不是一个人的全部单词量。不过这里面有些词是英语里几个词合起来的。所以中国人词汇量未必比美国人高这么多。但我觉得定性的结论还是可以下的。

另外里面可能有你没见过的词，可以看看有多少你猜不出正确含义……我觉得除了极少数，确实没什么难度……

另外，汉语和英语都各自在组词上有一个弱点。汉语有大量的同音词，而英语有大量的多义词。汉语有“攻击”和“公鸡”，英语的Ball既可以是球也可以是舞会，当然还有相关的一些列动词含义。汉语中，曾经在文言文中大规模使用的单音节多义词现在大多变成了双音节单义词。汉语中真正的多义词（各个意思之间没有直观逻辑联系）是极少数。而英语里的同音词也是极少数。可以说这两种语言在各自的发展路径上都做了妥协。

由于英语多义词比例比较大，所以尽管英语使用者词汇量比汉语使用者低，也不能说明英语的描述能力不如汉语。另外注意到，美国大学生的词汇量远低于老年人，这说明他们并不是已经记下了所有能见到的词汇，而是在那个年龄段，还没有足够的时间记下。因此可以看出，英语一词多义很多的原因，很可能就是英语单词的记忆难度比汉语大。

所以总的来说，由于汉语精简了发音，并且每音节信息密度较高，这就使得汉语可以有较长的平均词长，因此组词逻辑相比于英语就有了一定的优势。至于其他主要语言，信息传递效率与汉语相比差距更大。主要方面都无法相比，这种次要方面就不需要再比了。（不过话说回来法语之类组词逻辑比英语确实要好）。

七、强劲的抗噪能力

前面讲到，英语依靠大量的单音节词才能够接近汉语的信息传递效率。但这不是没有代价的。

构造大量的单音节词，就需要在词汇中使用大量的辅音。辅音分为两种。一种属于响音，就是能够持续发音的，诸如m、n、ng（除这类辅音外，所有的元音也都是响音），一类叫做阻碍音。阻碍音本身发音短促、强度低、音高也很低。只有当阻碍音与元音结合，才能发出强度比较大的音。

汉语普通话中，所有阻碍音都是与元音结合的。而英语以及欧洲所有拼音语言，都大量使用了不与元音结合的阻碍音。事实上，古汉语中不与元音结合的阻碍音是极度常见的，音节结构比现代汉语的诸多方言都复杂。但是后来这种辅音用法就基本淘汰了。具体上古汉语的发音案例，大家可以自行搜索“《關雎》上古漢語朗讀”。虽然学界对上古汉语的具体发音还有很多争议，但古汉语音节的复杂度在那个朗读中体现得很好。

消灭独立的阻碍音，首先加快了发音速度，第二保证所有音都具有很高的强度。但是其代价就是大大缩小了单音节词库。不过在上面的比较中我们可以看出，这个代价是值得的。汉语的信息传递效率仍然非常高。

那么我们继续一个前面提到的话题，是不是音调越多越好呢？

有一个搞笑论调是这么说的，"我们的普通话叫“mandarin”，什么意思啊？满大人，满族人清朝入关之后，说不出我们的口语，他就把很多调去掉了，把入声去掉了，说的发音越来越简单了。然后逼着全国人都这么说。所以我们现在的口语比粤语要简单得多。"

这是一个非常愚昧的论调。首先，Mandarin这个英语单词来自于葡萄牙语mandarim，葡萄牙语这个词又来源于马来语mĕntĕri，马来语这个词来源于梵语mantrin，而梵语这个词的意思是官员。换句话说，mandarin的愿意是“官话”。而且Mandarin这个词能查找到的最早的记录出现于1589年。大家可以查查那时候“满大人”在哪里呢。

很多人以为粤语是正宗的汉语发音。这话对，也不对。粤语具备一些中古汉语的发音特征。但是它也是在中古汉语的基础上发展而成的，语音还是有相当大的差异。有人认为北方官话/中原官话的形成，是因为蛮族入侵“污染”了汉语。这个说法同样，对，也不对。北方官话之所以在中古汉语的基础上进一步的发展，就是因为战争与征服，北方汉民与语言不通的外族加深的了交流，多种族的融合，教育，逐渐把一些发音变得更加容易。

举一个例子，粤语里白菜的白是Baak6，普通话是Bai2。粤语里尾部的这个k是一个不发音的舌头动作。这个动作略微改变了原来Baa的发音。但是这个音，如果不费力就很难造成Baa明显的变化。相比之下，Bai本身就容易发，双元音ai的发音是通过舌头跟随下颚动作完成的。我们知道咀嚼肌的力量比舌头大，运动也快。依靠下颚完成的ai音显然比依靠舌头完成的aak音要容易发。当然这不是一个公平的比较，相比之下普通话Liu、Lang的发音难度与粤语Baak相近，但是这两个音的尾部都是响音，不需要费力就能发得很清楚。

与这个不发音的k类似的，还有粤语中p和t结尾。这种发音方式正式名称叫做不除阻的塞音尾。在亚洲很多国家和方言里都有。这应该是古汉语流传下来的特点。这种塞音尾既不抗噪也不省力。在交流更广泛、更频繁的北方方言里是很难见到的，应该是已经演化成其他发音了。

粤语依具体方言不同，有6-10个声调。其音高变化模式并不超出普通话的四个音调。之所以多出来这么多音调，是因为粤语还引入了不同基准音高。比方说在一些方言里，粤语的第1、3、6声都是保持音高，但是这三个声调各自保持的音调高度不同。再比如粤语第2、5声，都是音高由低到高变化，但起始音高不同。粤语总共有四种不同的基准音高，分别是do、re、mi和sol。类似的情况在很多南方方言里都存在。

这就是为什么有时候南方方言听起来有些像唱歌。大概也就是为什么吴侬软语听起来很好听。

然而粤语音调最大的问题就是，每一个人音调高低是不一样的。有的人说话音调高，有的人音调低。没有一个统一标准。甚至同一个人说话的时候，在低沉、平静、激动时，音调高低也是不同的。因此，与一个不熟悉的人说话，出现单独的一个音高或两个音高，都很难分辨出到底是哪一声。必须要三到四个基准音高都繁出现，才能判断准确对方的音高究竟属于哪一声。而这些基准音高是否会频繁出现，这就是比较看人品的了。当然，就汉语的冗余度而言，一部分音高判断不准是没有太大关系的。但这就让粤语发音多变的优势大大削弱了。

此外，粤语的7、8、9声都是短促音，其音高和音高变化模式与1、3、6声没有区别。短促音抗噪能力不如普通音长的发音，但它们的发音速度更快。不过在现今人类口语交流中，瓶颈是大脑的思维速度，发音速度太快并没有明显的好处。

有人问到底多少个声调最合适。我觉得这很不好说。现在没有客观的评估。但是无论如何有声调的汉语（及其方言）总是要比没有声调的外语强。。

那么汉语的抗噪性能有没有什么证明呢？

有的。出了国，尤其是到了欧美的人，就会发现一个问题。那就是中国人说英语，相比于当地人来说，总有点含混不清。外语老师总是要求中国人说英语的时候嘴巴要张大、舌头的运动要有力，甚至要求用牙齿咬住一根铅笔来训练唇舌运动。这是为什么呢？因为中国人已经习惯了唇舌微微运动的发音过程。

首先汉语发音具有很高的信号强度。而且由于舍弃了所有单独发音的辅音，所以一个音节里的元音就能保持更长的时间（这也就是为什么我们一般觉得汉语说话比英语慢的缘故）。我们知道长时间保持一个信号，也有利于对抗随机噪声。发音强度大、元音维持时间长，这就导致，同等发音强度时，汉语的抗噪能力更加强大。换句话说就是，同等噪音条件下，汉语所需要的音量更小。因此汉语使用者发音不必费力，唇舌运动幅度比英语之类明显小。

八、口语的速度

说到口语的速度，我们先来看这篇论文：http://ldc.upenn.edu/myl/llog/icslp06_final.pdf

其中图1显示，根据一些谈话样本，当去掉沉默与噪音占据的时间后，英语会话者每分钟一般能够说160-280个词。汉语会话者大致是250至400词（这里不是字）。这差不多是普通人不受思绪影响的最高语速。所以可以看出，汉语的理论最高信息传递能力是远远高于英语的。

但实际上受限于思维速度，两者的速度差距并不大。以下这篇论文研究了在不同语速下听众正确听得每个字的概率。http://www.sciencedirect.com/science/article/pii/S0169814104001581

一般广播节目的语速在4.3字每秒左右。也就是每分钟260字上下。高于这个数字，就可能会听众接收语音时听错。从上文可以看出，年轻人在对方语速达到约650字每分钟时（即吐字时间缩短60%）仍然能保持90%以上的正确接收率。但是老年人就会降低到约70%。可以看出这个速度实际是受限于大脑的处理速度。中国好声音的华少，是47秒说350个字，也就是速度达到了446.8字每分钟。这个速度上能说得字字清晰，这是很厉害的。

英文新闻播音一般在150-180词每分钟（当然，也取决于词的长度）。根据10个小时的法庭录音的数据结果（http://languagelog.ldc.upenn.edu/nll/?p=1255），可以看出美国大众90%的情况下说话速度低于200词每分钟，99.75%的情况下低于250词每分钟。平均水平差不多是160-170词每分钟。（因为仅靠10小时庭审记录统计，所以不会特别准确，这里就是看个大概。）

所以，按照平均每词1.4音节计算，基本上英文新闻播音一般每分钟210-252个音节左右。这与庭审记录中平均一分钟226个音节接近。

英文播音平均每分钟210-252个音节与汉语播音平均每分钟240-260字没有显著区别。

可以说，人类接受语音的速度，现在是受到了人脑处理能力的限制。上面的播音速度，都不是播音员最快的说话速度，而是为了保证观众正常收听才控制的速度。随着交流的日益深入，人类说话的速度实际上在加快。40年前美国一般语速是145词每分钟。如今是160-170词每分钟。中国60年代播音185字每分钟，如今是240-260字每分钟。这也许是信息的丰富让人脑的处理能力上升的缘故。

九、汉字：伟大的基础

汉语一开始也是一种综合语。大量使用词根、词缀。但是从文字角度，汉字为汉语成为分析语提供了非常关键的基础结构。汉字导致词形变化无法记录在纸上。最后词形变化就只能用额外的汉字来标记了。而这个增加的汉字就变成了一个通用的逻辑规则，也就与修饰的特定词失去了必然关系。这样汉语就逐渐变成分析语了。

而正是由于汉字将读音与书写割裂，使得汉语的语音能够相对自由地发展。因此在汉语语音在几千年中变化了如此之大，而我们的文化却没有多少割裂。

更进一步地，由于汉字并不受限于读音，因此可以创造出大量同音异形字，帮助汉语降低平均音节长度、提高组词的逻辑性。而且，虽然在口语上，汉语的同音异形词和英语的多义词都属于“同一发音可能包含不同含义”的情况，但写到纸面上，同音异形词就比多义词更容易辨识，减少歧义的可能。

有人可能会问，汉语口语交流，并没有多少歧义的问题。那为什么文字中会需要额外的消除歧义的能力呢？这是因为一般情况下口语交流是一种双向交流，如果发现有可能有歧义，可以向对方询问，主动消除歧义。而文字往往是一种单向交流（不包括网上文字聊天……），一旦出现歧义，就很难消除。因此文字里的歧义一般需要比口语更小。

所以我们的文字、我们的语音以及我们整个语言整体，都是有机结合在一起的。推崇汉字的拼音化或拉丁语话，都是没有看清这种密切联系。因此盲目把文字拼音化的韩国就会出那种把防水材料搞成吸水材料的笑话（韩语里“防水”和“放水”读音一致，结果建筑公司错误理解了图纸）。

另外，由于汉字不需要空格，所以相比于类似字号的英文单词，同一个词要高而窄。这在排版上有很大的优势（行距要占用额外的空间，高而窄可以减少行数）。加上汉语本身信息密度高。所以一般我们看到的中文版的书面文件都比外文版的页数少。

十、阅读速度的比较

和语音一样，阅读速度同样受到大脑处理速度的制约。所以各个主要语言区别不大。

在《ReadingChineseScript: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese andEnglish Text》专门讲阅读中英文时的眼球移动。这是中科院和悉尼大学的两位学者写的。这其中发现。熟练的中文阅读者能够每分钟阅读386个中文词汇（580个汉字），而熟练的英文阅读者可以每分钟阅读382个英文词汇。一般人可能会低100词左右。具体速度还取决于文章的复杂程度，文章简单的话阅读速度就更快。

汉语使用者眼睛每次凝视可以阅读1.71个词（2.57个汉字），每次凝视平均257毫秒。英文阅读者每次凝视可以阅读1.75个词，每次凝视平均265毫秒。

总体上说，两者阅读速度不相伯仲。

在同一个章节中，作者提到，如果通过连续在同一位置显示不同的词（RSVP法），就能免去眼睛的运动。这样，最高可以提升中文阅读速度约33%（从640字每分钟提升至853）。英文最高提升也基本上是33%上下（见http://www.handwritten.net/mv/papers/oqvist01adaptive_rapid_serial_visual_presentation.pdf）。

十一、双线并行读取能力：更稳定

经过长期的研究，人们发现不同语言使用者在阅读时使用的大脑区域是不同的。以下这篇文章提供了部分综述：http://www.pitt.edu/~perfetti/PDF/Brain%20activ%20process%20Chinese%20char%20and%20words-%20Tan%20et%20al..pdf

阅读自己母语时，阅读汉语的人脑部激活范围比阅读英语的人大。英语阅读者在阅读时主要激活左脑的一些部分。而汉语阅读者同时激活左右脑。这是一个很有意思的发现。因为，时序信号（语音就是个时序信号）的处理区域一般在左脑，图像、空间信息的处理区域一般在右脑。所以，很多人认为，汉语阅读者的阅读实际上有两个处理通道。就是说在阅读汉语时，我们总是一边通过图像来直接识别文字含义，一边通过图像转换为读音然后来识别文字含义。而表音语言只有一条显著的处理通道。

为了确认这个结果。研究人员进一步研究了一个夹杂表意和表音文字的语言——日语。在阅读日语时，左脑在阅读平假名/片假名有优势，而右脑在阅读汉字时有优势。

有意思的是，中国人在读英语、日语时脑部活动与英美人士读英语是不一样的。显示出中国人长期阅读中文后，养成的图形、读音双路识别的习惯。不过快速阅读英文时右脑活跃度不高，可见此时主要依赖读音识别。具体内容可见下面这篇文章http://www.pitt.edu/~perfetti/PDF/Brain%20activ%20process%20Chinese%20char%20and%20words-%20Tan%20et%20al..pdf

这些研究同时意味着，汉语的两大处理途径只有同时失效才会造成阅读能力低下。这个结论受到近年来的研究支持。如下面这两个报道：http://blogs.scientificamerican.com/observations/2009/10/12/its-all-chinese-to-me-dyslexia-has-big-differences-in-english-and-chinese/http://www.sciencedaily.com/releases/2009/10/091012121333.htm

学者研究了具有发展性阅读障碍（失读症）的中国儿童，他们大脑的处理语音的部分和处理图像的部分活跃度都比较差。而英文失读症的患儿，则不见得有图像处理问题。事实上，有一种疗法就是把英文发音用汉字表示，然后让患儿阅读。取得了很好的效果。具体可见1971年的这篇论文。http://www.eric.ed.gov/ERICWebPortal/search/detailmini.jsp?_nfpb=true&_&ERICExtSearch_SearchValue_0=EJ037129&ERICExtSearch_SearchType_0=no&accno=EJ037129

患阅读障碍的儿童比例也说明了中国儿童不易得阅读障碍。http://www.guardian.co.uk/education/2004/sep/23/research.highereducation2

根据上面这篇报道，英语区阅读障碍者比例约为5-6%，而汉语区约为1.5%。百度的数据不知道哪里来的，居然说中国失读症患者和美国相当。我看到的英文文献没有一个说两者相当的。都是中国比英美低。可能由于标准不同，还有另一组数据：中国7%，美国17%。实在是没有见到哪里有说两者相当的。

不过值得注意的是，汉语阅读与英语阅读使用不同的大脑区域，病变区域也不同。所以具体的致病机理仍然在研究中。目前只能通过患者的行为现象来论证。

也有人怀疑，正是由于汉语造成更大的脑部活动，所以在教育水平普遍落后于发达国家的情况下，中国平均智商仍然高于欧美。关于全球各国平均智商，有两位作者写了很多本书。这些书的综述可见这里：http://en.wikipedia.org/wiki/Nations_and_intelligence

不过以上这个智商研究的准确性受到了诸多质疑。所以大家看看就是了，不必太认真。

十二、不够严谨？

有人说汉语的劣势就是不够严谨。

这其实可以说是分析语和综合语的差异。分析语对于词的具体含义需要通过上下文确定。如果上下文给予信息不足，就有可能出现歧义。而很多时候，上下文只能表明这个词更可能是什么意思，而不能完全否定其他理解。

这虽然在交流中不会有什么问题，但是在那些防止别人钻空子的文件里就可能造成问题。

我们举个例子：“中国绝不会首先使用核武器。”

这句话有三种解释：1、在敌方没有使用核武器之前，中国不会使用核武器。2、中国在使用常规武器之前不会使用核武器。3、中国不会是世界上第一个使用核武器的国家。

很显然理解应该是1，但是并无法否定2和3的可能性。因此，很多人认为汉语的这种不严谨性会妨碍法律条文和合同。

但是英文难道就很严谨么？He ran into a girl with an umbrella.带伞的是男的还是女的？I saw a car with a big flag, whichlooked really evil. 哪个看起来很邪恶，车还是旗子？China will not be the first to use anuclear weapon. 这应该是上面的解释1还是3？

想要做到严谨，都需要考虑到其他人阅读时的想法，然后用其他语句来消除歧义。（顺便推荐搞笑英语书籍《Anguished English: AnAnthology of Accidental Assaults Upon OurLanguage》，里面收录了很多爆笑的歧义句，比如If you have not got any fresh vegetables, you may get canned.）

所以，汉语要想说的严谨，也是没有问题，只不过要比一般多一些口舌而已。分析语本身的表意效率就很高。多花一些笔墨，达到严谨的效果，也是完全可以做到的。所以这方面如果有差距的话，差距也不大。

十三、劣势：难以学习

毋庸置疑，虽然汉字承载着汉语的诸多优势，但是汉字本身最大的劣势却是不可回避的。那就是不利于学习。

我在背英语单词的时候，发现最好的记忆方法是把意思和读音结合起来，然后通过读音记忆拼写。（完美的表音文字，应该是读音与拼写的直接对应。英语由于受到其他语言影响太多所以这方面相对较差，不过这种规律还是相通的。）

相对与文字，人对读音的记忆速度更快。而表音文字，一旦掌握了拼写和读音之间的规律，就很容易记住文字。

而汉语在这方面是很差的。字和字之间缺乏联系，字和读音之间很少有联系，而且由于几千年语音的变化，经常看着是个形声字，读音却与想象的相差甚远。这是我们文字的劣势。当然，如前面所说，这也有使用上的优势。

我们可以看到，几千年来文字的发展历程。它总是首先于两个因素：表意的需要，学习和书写的难度。

一开始我们的老祖宗试图用一个字代表一个特定含义。这是很自然的思路。但是后来随着需要表达的意思成几何级数增长。汉字逐渐就不够用了。或者说，这样的话，同音字实在太多，不利于传播了。于是多个字组成的词才出现。在此之后，一大批原来造出来的字都被抛弃了。

比方说骓、骊、骒这种专门为表示特定种类的马的字。还有璇、玑等等一大堆带王字旁（斜玉旁）表示特定种类的玉器的字。后者毕竟意思还不错，还在名字里用一用。

有一些人对汉字的简化持有非常大的非议。我觉得大可不必。汉字的简化是必要的。越复杂的字形，越难以学习。汉字几千年的发展，使得字形与含义的距离也越来越远。复杂的字形在表音、表意方面并无优势。进与進、从与從、后与後，都没看出来繁体字在表意方面有何优势，而简体在学习的简便性上优势倒是很明显。每次看到“憂鬱的烏龜”，我自己都快忧郁了。

当然，汉字简化还将一些意思完全不同的字合成了一个字。有个著名的繁体字爱好者嘲笑简体字的段子是“我女朋友下面给我吃”有歧义。而繁体字版，因为能区分面和麵，是没有歧义的。当然现实生活里是没有人这样说话的。一般对于“下麵”，我们不是说“下面条”就是说“下点面”。

而且，拜托，我们是分析语好吗？拜托有一点分析语的自觉好不好？你觉得专门找一段孤立的话，有什么价值么？如果找个综合语，能用词形变化把“（男性）我”和“（女性）我”分开，更可以轻易嘲笑汉语造成歧义。分析语本身就要求有上下文提供必要的信息，因为分析语借助逻辑关系省略了大量的信息才实现了更高效率的信息传递。这点小小的歧义在现实生活中是不会造成什么影响。你要问为什么，这很简单，因为汉字简化都不是几十年前那些人坐在那里拍脑袋写出来的，而是之前至少上百年就有人大规模使用的。如果频繁造成歧义，早就没有人那样用了。

当语法发展完全，使用充分之后，维持庞大而复杂的常用文字库只能不利于学习。适当的简化是必要的。汉字本身的优越性并不高，但是它为汉语的优越性提供了必要的基础支持。没有汉字就没有汉语，但是汉字本身也是需要时不时进行改革的。毕竟学习的难度在目前条件下还是显著高于其他语言。如果能在不伤害对汉语的支撑能力的情况下使得汉字更好学习，这无疑是一件好事。

另外，有人认为汉语的检索非常困难。但是现在都是计算机和智能设备了。有几个人近年来还翻过字典呢？有几个人还跑到图书馆里去查索引呢？连英文都不这么做了。直接计算机一查，你要的东西在哪个位置就显示出来了。

十四、汉语与拼音文字的起源对比

最后讲个小问题。现在拼音文字大行其道。有的人认为这意味着拼音文字是更先进的文字，所以拼音文字战胜了表意/意音文字。事实上，单从两者的发展历史，是得不到这个结论的。

文字，从一开始就是记录信息用的。所有文明的最原始的文字，如果是自然生成的话，都是象形文字。这个原因并不难理解。一开始大家可能只要记录今天是什么日子、我有几头牛之类。显然是画个东西上去最简单。中国、两河流域、古埃及、古印度、玛雅，一开始使用的都是象形文字。

从象形文字出发，一个文明可以发展出很多种不同的字形。但是随着需要表达的意思迅速增加，就需要不断添加新的字形。这时比较简单的办法就是让一个字型一部分表音一部分表意。中国汉字在扩展时主要采用形声字策略。用形旁和声旁组合成一个汉字。而埃及的圣书体也与此类似，圣书体的一个单词包含两个部分，一部分用象形符号表音，一部分用象形符号表意。

而欧洲现在主要语言都起源于拉丁文，拉丁文又起源于希腊语。希腊人的字母表是腓内基人教的。而腓内基人的字母又是从埃及人那里来的。与此同时，还发现了一种可能是拼音文字的“前西奈字母”文字。这种文字与腓内基文字类似，也与圣书体有相似之处。有学者认为，腓内基文字就起源于“前西奈字母”，而“前西奈字母”则是圣书文的一种拼音简化体。这类似于拼音文和汉字的区别。

所以说白了，从腓内基开始，一直到现在欧洲诸国。其拼音文字的起源，大概都由埃及的圣书体中的表音部分演化而来。

需要注意的是，由于口语先于文字出现，当一个民族还没有自己文字的时候，接触到外来文明，就容易用外来文明的字符体系来构建自己的文字。对于这些民族而言，最简单的就是用先进文明的字母体系来直接表达自己语言的发音。

因此，自腓内基而后的欧洲的次生文明自然纷纷使用字母来记录自己的语言。

再比如，日本尽管很早就引进了汉字，但是汉字与其原有的语言（当时还没有文字）并不兼容。而汉语里根本就没有简单的拼音符号。但是日本为了能够真实记录自己的语言，最终衍生出了平假名、片假名为汉字注音（这个音是日语里同义词的音，不是汉字本身的音）。后来这些就变成了日语的基本符号。

从这里就可以看出，当次生文明在没有发展出自己的象形文字体系就被原生文明文化入侵时。无论他们先接触到的是什么样的原生文明语言，最终都会走上使用拼音文字的道路。这样的拼音文字，同时也很适合直接囫囵吞枣地引进外语的词汇，方便向先进文明学习。这种特点一直流传到今天。比如日文“计算机”就是Personal Computer的音译(实际上是PersoCom的音译)。而英文的各种疾病的名字基本都可以追溯到希腊语，比如肾炎Nephritis，就是从希腊语的肾炎经过拉丁文倒买倒卖而来的。

顺便，看到有人质疑希腊是次生文明的这个说法，不得不解释一句。希腊是埃及和两河流域的次生文明，正是因为它同时受到了两大原生文明的哺育，才在古代具有高度发达的文化。但这改变不了希腊是次生文明的现实。这也就是为什么各国论述古文明的书籍中，希腊文明总比古埃及、两河、中国等原生文明低一个等级。曾经看到有人用希腊来否定中国在古文明中的地位，这是很可笑的。

那么为什么这世界上的表意文字这么少呢？很显然，这世界上的原生文明本来就那么几个，而次生文明却要多几个数量级。历史大潮中三十年河东三十年河西，原生文明也有可能被次生文明所征服。在征服之后，语言也就有可能会逐渐消亡了。

所以，拼音文字广泛使用，这并不说明拼音文字就优秀。只能说这世界上的原生文明实在太少。

后记

还是那句话，这文章里的数据不要太认真，因为采样的样本都很小。但是我希望大家明白汉语从来就不是一种落后的语言。

为什么汉语是世界上最先进的语言之一（第二版）

推荐阅读更多精彩内容