一,信息与冗余
看看下面这两句话:
1星期天不上班。
2介太太氕与锚。
从信息量看,更多人都会觉得第一句的信息量更大,第二句不知道在说什么。但万维钢说其实是第二句的信息量更大。第一句不过是看起来更有意义些。
比如你把第一句变成:
星__天不__班。是不是还是能猜到空白的是什么字。这句话其实是“可压缩”的。但第二段拿掉任何一个字你都不能猜到。因为它是“不可压缩”的。
万维钢在原文中的第二段话是随便打了段乱码,但为了帮助大家更好的理解,我特意把第二段话换了,把原文进行了汉字的凯撒移数一位。原文是:今天天气不错。
怎么加工的呢?比如汉字“一”对应的unicode编码是0x4e00,凯撒移位为1的话0x4e00+1=0x4e01,对应的汉字就是“丁”
把今天天气不错进行unicode转换是
20170 22825 22825 27668 19981 38169
凯撒移位1的话就变成
20171 22826 22826 27669 19982 38170
然后再用unicode翻译过来就是
介太太氕与锚
怎么样,现在再看看上面两句话是不是更能理解为什么第二句话的信息量更大了。
二,香农的洞见
一个信息的信息量大小,在于他克服了多少不确定性。
前面第一个句子,有些字即便空白了,我们也能猜到它原来的意思。这就意味着它们提供的信息就比较少。
像:今天我要到田里干__,我不说你大概也能猜到是活字。因为汉子中干字开头的词不多,干活,干事,干仗,就那几个。你很简单就能猜到,所以“活”这个字提供的信息量很少。
再比如要你帮我跟踪一个人,实时汇报他的位置。如果这个人生活非常规律,平常就在家,公司,餐馆这三个地方出现,你每次告诉我的无非也是这三个。哪怕你不告诉我,我也有三分之一的把握猜到。所以你给我的信息价值并不是很大。
但如果他今天在哈尔滨,明天在菲律宾。全世界到处跑,我猜不到他在哪,这时候你给我的信息价值就非常大了。你的信息出来前,他的位置对我而言就是一种不确定性。你的信息克服了这种不确定性,原来的不确定性越大,你的信息就越有价值。
3信息熵
万维钢在文中用对数函数和加权平均解释了信息的计算公式。并举了几个扔硬币的例子计算。鉴于过程太复杂,我就简单摘录这一段的精华:
在物理学上,熵描写的是一个系统的混乱程度,信息熵也是如此。越是看上去杂乱无章的信息,信息熵越高,它的信息含量就越高。也就是说,可供选择的范围越广,选择的信息量也就越大。
4压缩能使信息量最大化
比如古代用的文言文,就是如此,特别省竹简。我们现在所处的信息社会也是如此,我们之所以能在电脑上听音乐看电影,就是因为有了压缩算法。压缩算法都用到了香农的观念。
那我们平常说话为什么不尽量压缩,要容忍那么大的语言冗度呢?作者说主要原因是有噪声。我认为除开这一点之外,有时候我们交流只是为了传达一个简单的信息,如果每个信息的信息量都太大,存在太多可能性,反而失去了效率。
5香农的第二个洞见
克服噪声的正确方法,是增加信息的冗余度。
比如以前的电台,一段代码传送的过程中,噪声可能把“0”变成了“1”。刚开始大家的想法是把信号放大,让信号的强度超过噪声。
但这陷入了一个囚徒困境,如果每条通讯都扯着嗓子喊,声音越来越大了,互相的干扰也越严重,噪声也当然变得越大。而香农的做法明显有效的多。
举个例子,比如ABCD分别对应00,01,10,11。我想传播一个A,但信息在传播的过程中可能会把“0”变成了“1”,最终你收到的就很有可能变成了BCD了。
但如果增加它的冗余度,让ABCD分别对应000000,000111,111000,111111。这时候即便是在传播的过程出了错,你收到的是000001,你也能立马猜到我传播的是A。
6可预测性和不可预测性
信息的本质是克服了多少不确定性,也就是不可预测,而冗余的本质恰恰是提高可预测性。
从信息论的角度,我们的人生面临一个矛盾。一方面希望自己过得有效率,给世界留下更多信息,另一方面又不得不跟人好好交流,增加冗余度。
万维钢说既要有创造性,又要可预测,这才是合理的信息输出。然后他提出了一个新颖的角度:
从信息论的角度上看,看书的速度并不是由你眼球转动的速度决定的,而是取决于你对你所读的领域了解多少。因此他说出了阅读的过程就是读者与作者的较量,看作者能使出多少手段让读者猜不到他下一步想讲什么。
接着他又给了一个学习积累的角度:减少世界给自己的不确定性。新人看啥都觉新鲜,老手看哪都是俗套。因为只有这样,才能从一大堆可预测的事物中抓到那些不寻常之处,那才是真正有价值的信息。
我把这句话再稍微解读一下,就是尽量找到事物发生背后的基本原理,框架或模型。
然后对于做事,他给出的方法是增加自己的不确定性,信息就是意外。出事出乎意料,才值得被记住。
但是不能因为要做出乎意料的事就选择做坏事。他说我们的生活除了信息论的纬度,还有各种衡量的纬度,比如好与坏。一个不负责任的医生违反操作规程把人医死了,这是值得被记录的,但却不是一件好事。
最后他给出了一个很好的结尾,引用了《辛德勒的名单》中的一句话:什么叫做权利呢?“权利是我们有充分的理由去杀一个人,但是我们不杀”。