一个基于信息论的人生观(上)
信息论的价值观是要求选择权、多样性、不确定性和自由度。我们不只想老老实实地活着,我们还想活出“信息”来。
想在这个世界上留下自己的痕迹。
“信息”,是现代世界一个非常重要的观念。你肯定已经听过“比特”、“信息熵”之类的词了,这些概念似乎都比较技术化,那不搞技术的人也需要了解它们吗?
非常需要。信息论并不仅仅是一个技术理论,更是一个具有普世价值的思想。了解了信息论,你就多了一个观察世界的眼光。你甚至可以从信息论中推导出一个人生观来。
1.信息与冗余
1. 怎想再很,末第铎制释能锁其那策铜怎亚,狄幺濑互梯是日方通的。
2. 对这些村民来说,星期天是休息的日子,至少不需要到田地里干活。
第一条消息是胡乱打出来的字,第二条消息则是刚刚获得诺贝尔文学奖的石黑一雄的小说《被掩埋的巨人》中的一句话。请问,哪条消息的“信息量”,更大?
直觉上来说,你可能认为第二条的信息量更大,因为它至少是一个信息,而第一条完全是乱码。但第二条消息其实只不过是看起来更有*意义*而已 —— 信息量更大的是第一条。
这第二条消息中有很多*多余*的字。即便把其中有些字给去掉,留下空白,你也能猜到它们是什么字。比如说 ——
“星期__是__休__的日__”
你一看就能猜到这句话是“星期天是休息的日子”。
这就是说,第二条消息,是*可压缩*的。
而第一条消息就不一样了,我拿掉任何一个字,你都肯定猜不出来它是哪个字。这是一条*不可压缩*的信息。至于说这条消息有没有*意义*,那是另外一回事,也许它是一个密码,也许它是一些人名和地名的组合,但关键在于,你无法省略其中任何一个字。
这就是说,一段消息所包含的信息,并不仅仅由这条消息的长短决定。这就好像人生一样,活了同样岁数的两个人,他们的人生经历的丰富程度可能大不相同。
那怎么衡量“信息”呢?
2.香农的洞见
有些字看起来是多余的,它们并不提供新信息。有些字虽然不算多余,但是我们猜也能猜出个八九不离十,那么它们提供的信息量也就比较小。
比如说 ——
“至少不需要到田地里干__”
你猜最后空格这个字是什么?汉语中以“干”开头的词并不多,适合放在这里的无非是“干活”、“干事”、“干仗”这几种情况之一。现在告诉你这个字是“活”,你肯定不会感到惊讶 —— 所以“活”这个字提供的信息很少。
现代信息论的祖师爷,克劳德·艾尔伍德·香农(Claude Elwood Shannon),有一个洞见:一个东西的信息量的大小,在于它克服了多少*不确定性*。
先举一个生活中的例子。比如现在有一个人,生活非常规律,平时就出现在四个地方:家里、公司、餐馆、健身房。如果雇你做特工,观察这个人,随时汇报他的位置,那你每次给的信息无非就是“家里/公司/餐馆/健身房”四选一 —— 即使你不说也有四分之一的把握猜对。所以你给的信息价值不算太大。
可是如果这个人全世界到处跑,今天在土耳其明天在沙特阿拉伯我完全猜不到他在哪,那你给的信息可就非常值钱了。
你的信息出来之前,这个人的位置对我来说是一种不确定性。你的信息,克服了这个不确定性。原来的不确定性越大,你的信息就越有价值。
可供选择的范围越广,选择的信息量就越大。
3.信息熵
香农从统计物理学中借鉴了一个概念,这就是“信息熵”。不要被这个名词吓到!其实所谓信息熵,就是一段消息的“平均信息量”。
先说“信息量”。一个东西的信息量的大小取决于它克服了多大的不确定性。香农对信息量的定义非常简单,如果一个字符出现在这个位置的概率是 p,那么这个字符的信息量 I 就是 ——
I = - log2(p)
其中那个“log”就是以2为底的对数,这是初中数学!
假设有一个完美公正的硬币,每次抛出正面朝上的概率都是1/2,那么这一次抛硬币的结果是正面朝上,这个消息的信息量就是 ——
- log2(1/2) = 1.
信息熵,就是把一条消息中出现的所有字符,做信息量的加权平均 ——
还是用硬币的例子,用1表示正面朝上,0表示反面朝上,一系列投掷结果可能是——
0011100101
如果正反面出现的概率都正好是1/2,那这一串消息不管有多长,信息熵都是 1/2*1+1/2*1 = 1.香农规定信息量的单位是“比特”,那么这个信息熵就是1比特。
这意味着,对消息中的*每个*字符,你*至少需要*1比特的信息才能编码。
如果这个硬币不公平,出现1的次数比出现0要多,比如说
1101110011
那信息熵就不是1比特了,对这个例子来说,0出现的概率是30%,1出现的概率是70%,所以信息熵就变成了 ——
[0.3*log2(0.3)+0.7*log2(0.7)] = 0.88 比特。
信息熵跟消息的长度没有必然关系,它描写的是这段消息中字符的“不可预测性”。一段字符串中出现的各种字符越具有杂乱无章的特点,越具有多样性,它的信息熵就越高。比如下面这个字符串 ——
asdogrpfkn
每个字母都不一样,它的信息熵是3.3 比特。而如果字符串中有很多重复的,那么它的“可预测性”就更高,信息熵就会变低,比如——
asdfasdfooasop
的信息熵只有 2.5 比特。
注意这里为了简化,计算只考虑了字符出现的频率。如果你从语法和内容角度进一步考虑每个字符的可预测性,信息熵就是另一个数值了。
信息熵之所以叫“熵”,是因为它跟统计物理学中熵的公式几乎一样。在物理学里“熵”大致描写了一个系统的混乱程度 —— 而信息熵也是如此,越是看上去杂乱无章的消息,信息熵就越高,也就是说它的信息含量就越高。
如果一段消息只能从0和1两个数字中选,它的信息熵最大也只有1比特。如果你能从26个字母中选,信息熵最大可以达到4.7比特。如果是从2500个汉字中选,信息熵则可以达到11.3比特。这就是为什么中文是一种更高效的语言。
数学部分到此为止。如果没看懂,只要记住一句话就行:可供选择的范围越广,选择的信息量就越大。
4.空话与人生
这个关于信息量的概念,出自香农1948年的论文,《通讯的数学原理》,当时的香农只有32岁。这个理论一出来就受到了热烈欢迎,人们感觉是耳目一新。香农的一个同事,瓦伦·韦弗(Warren Weaver),是这么向公众讲解信息论的 ——
“从信息角度来看,最重要的不是你*说了*什么,而是你*能说*什么 。”
比如某个公司的 CEO 讲话,说的都是空话、套话 —— 他说前半句你就能猜到后半句,他一说“团结”,你就知道后面是“一致向前看”,他一说“万众”,后面跟着肯定是“一心”,那他就算讲三个小时也毫无信息量。他必须得说一些让你根本预测不了的话,才有信息量。
信息,在于你从多大的不确定性中做出了选择。信息,在于你制造了多少意外。信息,在于你有多大的自由度。
比如现在有个人,每天都按时上班从不迟到。他今天来上班了,请问这是新闻吗?当然不是,这个消息的信息量等于0。而另有一个人,想上班就上班想不上班就不上班,他今天来上班了,这才是一个新闻。第二个人,比第一个人拥有更多自由。
我们每个人都希望能度过值得回忆的一生,最好还是“值得记录”的一生。那所谓值得记录,不就是提供了有效的信息吗?
从信息角度来讲,人生就是要活一个“选择权”。如果你从来都是按部就班不敢越雷池半步地生活,干什么都是高度可预测的,那你的人生就不值得记录。而如果你的生活跌宕起伏充满意外,那就值得记录,甚至值得出自传拍电视剧。
比如上级交给你一个任务,任务已经非常明确告诉你第一步干什么、第二步干什么、到什么地方、找什么人接洽、话术又要怎么说。如果你只能完全按照这个剧本执行任务,请问你贡献了什么信息呢?没有。你没有自由度。
反过来说,如果你有能力不按剧本走,你敢给自己加戏,在关键时刻有选择权,你做的事儿让围观群众感到很意外,你才算是留下了信息!
所以信息论的价值观是要求选择权、多样性、不确定性和自由度。我们不只想老老实实地活着,我们还想活出“信息”来。
我们想在这个世界上留下自己的痕迹。
可是,如果是这样,我们为什么还经常说一些空话和套话呢?为什么我们在和别人打交道的过程中,还保留了很高的可预测性呢?
一个基于信息论的人生观(下)
既要有创造性,又要可预测,这才是合理的信息输出。
信息就是意外。从“信息论”这个维度出发,有两种事情是特别值得我们去做的:
1. 出乎别人意料的事;
2. 给自己增加选项的事。
香农关于信息的第一个洞见:一个东西真正的信息量,在于它克服了多大的不确定性。这个洞见给我们提供了一个观察世界的眼光。有了这个眼光,你再看身边很多东西,其实都没什么信息量。
1.怎样把信息量最大化
一个香农本人设计的例子,请听下面这句英文 ——
Most people have little difficulty in reading this sentence.
非常简单的一句话。而香农说,这句话中有很多冗余的字符!比如就算把其中所有的元音字母都去掉,如果你英文比较熟练,你也能猜出来这句话是什么 ——
Mst ppl hv lttl dffclty n rdng ths sntnc.
对吧?这第二句话能够表达同样的意思,而显然比第一句提供了更多的信息密集度。据我所知,有些古代文明的文字,就根本没有元音字母,让你自己猜。
这个去除一句话中的冗余字符的过程,就是“压缩”。其实这句话还可以进一步压缩,比如其中的介词(in)和定冠词(this),就算没有你也知道是什么意思。咱们中国的文言文,大约就是一种高度压缩的文体,言简意赅,特别省竹简。
香农认为英语是冗余度非常高的一种语言,一般英文文本中75%的字符都是多余的。
汉字的信息熵比英文字母高很多,所以同样长度的一句中文和英文,中文的信息量就会高出许多。同样的一本书,如果翻译成中文,就会薄出许多。最高效的文本,应该像是乱码一样,让你找不到任何规律。
非常可惜的是,信息革命真正开始改变世界的时候,香农已经得了老年痴呆症。香农年轻的时代,他这个理论并没有得到很好的应用,当时所谓的通讯无非也就是发发电报、打打电话,字符压缩不压缩的意义不大。等到互联网普及之后,音频和视频的压缩可就太关键了,没有压缩算法我们就不可能在计算机上听音乐和看电影。香农没有发明具体的压缩算法,但是所有压缩算法都用到了香农的观念。
如果压缩是传播信息的高效办法,那我们平时说话为什么不尽量压缩一下,为什么容忍那么大的语言冗余度呢?首要的原因是有噪声。
2.香农的第二个洞见
在香农发表信息论之前,困扰贝尔实验室科学家的一个问题是怎么克服通讯过程中的噪声。一段电码的传送过程中,噪声可能会把原本的0变成1,把1变成0。一开始人们的想法都是把信号放大,让信号的强度远远高于噪声 —— 但这其实是个囚徒困境!因为如果每条通讯都扯着嗓子喊,声音是越来越大了,但是互相之间的干扰也越来越强,彼此都是对方的噪声,等于是信号越强,噪声也越强!
香农的第二个洞见就是,克服噪声的正确办法,是增加信息的冗余度。
一个最简单的例子。假设要传递的消息都是由 ABCD 四个字母组成的,而传递的方式是用 0 和 1 两个数字对这四个字母编码。最高效的编码方式,是两个数字对应一个字母,比如 ——
A = 00
B = 01
C = 10
D = 11
根据这个编码,“000110”就是“ABC”,简单明了。但是这个编码系统有危险,因为如果传递过程中有噪声,把其中第二个0变成了1,那整个信息就成了 010110,那就成了BBC了!
怎么解决这个问题呢?香农说,你应该给编码增加一些冗余度。比如你可以用五个数字代表一个字母 ——
A = 00000
B = 00111
C = 11100
D = 11011
这样一来,哪怕传播过程中出了错,你看到“00001”这样的非法编码,也能立即猜到它是 A!
想想这个道理。日常说话不就是这样吗?我们的话都有很大的冗余度,有时候啰里啰嗦一个意思说好几遍,但是这样能确保你即便有几个字没听清楚,也能知道我说的是什么意思。而如果我这篇文章是用文言文写的,那你可能就没法听懂音频了。
后世所有的信息编码系统都要考虑到出错和纠错问题,基本原理正是香农说的增加冗余度。所以说,想要让别人充分理解你的意思,最好的办法不是用更大的声音对着他喊,而是多给他说几遍。
3.可预测和不可预测
信息的本质是克服了多少不确定性,也就是不可预测。而冗余度的本质恰恰是提高可预测性。
那么从信息论角度,人生面临一个矛盾。一方面你希望自己活得更有效率,能给世界留下更多信息,那做事就要有创造性,越不可预测越好。另一方面,你又要跟人好好交流,那就要增加冗余度,给别人一个合理的预期,让人觉得你是可预测的,这样才能形成合作。如果一个人连上一次班都是新闻,那就太不靠谱了。
既要有创造性,又要可预测,这才是合理的信息输出。这个道理有点像我们第一季多次说过的 “喜欢 = 熟悉 + 意外”,但这里从信息输出的角度,它的应用更为广泛。
比如说写文章,如果你的观点非常新,语言又特别简练,那信息量就太大,别人很可能难以理解。而如果你文章中的道理很少,车轱辘话却说了很多,那也不行。信息量到底要多少才好?这是一个艺术,你得慢慢摸索。在我看来,增加文字的冗余度唯一的好处就是方便别人接收,只要读者能理解、能记住,信息就应该越密集越好。
反过来说,读书,则是一个*接收*信息的问题。现在有各种关于“速读”的说法,而从信息论的角度,阅读速度并不是由你眼球转动的速度决定的。
接受一段信息速度的快慢,取决于这段信息对我们来说,在多大程度上是*可预测*的。
如果作者说上半句你就知道下半句,作者说一个典故的开头你就知道结局,那么这本书你显然就可以读得非常快。而如果这本书的内容对你来说是全新的,读到哪一段都一惊一乍,那你就只能慢慢细读。
所以一个人读书速度的快慢,从根本上来说,是取决于这个人以前读过多少书。对一个领域了解越多,读这个领域的新书就越快。小说看多了,再看新小说就觉得到处都是俗套。
那么如此说来,阅读的过程其实是读者和作者之间的一场较量!作者使出各种手段让读者预测不到他下一步要说什么,而读者一旦预测成功,就会有一种战胜了作者的感觉。
再进一步,还可以从接收信息和输出信息这个视角审视一下人生。
平时学习知识、积累经验,就是要减少世界给自己的不确定性。新人看哪里都新鲜,老手看哪里都是俗套 —— 只有这样,他才能从一大堆可预测的事物之中敏感地抓住那些不寻常之处,那才是真正有价值的信息。
而我们做事,则要给世界增加一点不确定性!别人都以为我会这么做,然后我就真的这么做了,那我跟一台机器有什么区别?我要输出信息,就得做一些别人想不到我会做的事。
信息就是意外。从“信息论”这个维度出发,有两种事情是特别值得去做的:
出乎别人意料的事;
给自己增加选项的事。
做事出乎意料,你做的这件事才值得被记住。有更多的选项,你才有能力做出乎意料的事。有选择权的人也可能故意做一些可预测的事来促进交流和合作 —— 但只要你真的拥有选择权,那就不管你是选了 A 还是选了 B,都是真的信息。选项 = 自由度。
难道做事不应该多做好事少做坏事吗?为了出乎意料而去做一些损人不利己的事,这也行吗?当然不行。但是请注意,这里说的仅仅是信息论这一个维度。人生有很多维度,好人坏人是另一个维度。一个恪尽职守的士兵在边境线上站了三年岗,他做的事很对也很好,但是不值得记录。一个不负责任的医生违反操作规程把病人治死了,他做的事很坏,但是值得记录下来。
当然,并不是所有人都想给这个世界留下信息。说的是如果你想留下信息,你应该怎么做。
一句电影《辛德勒的名单》里的台词。这句话大意是说,按照规定去杀人,那不能算你有权力,你并不真的掌握别人的命运 ——
什么叫权力呢?“权力是我们有充分的理由去杀一个人,但是我们不杀。”