文:HW君
香农信息公式取得的成就太过耀眼,以至于没有人发现香农对信息的诠释有瑕疵。
系列文章:
本文目录:
1. 信息量是熵
2. 信息是0熵系统
3. 信息的HW诠释
4. 信息的测量
5. 基于新范式的猜想
1. 信息量是熵
在上一期文章《信息哲学 | #1 信息是熵还是负熵?》中HW君复盘了香农信息论的建立过程,并留下了两个问题:
(1)「信息是熵」和「信息是负熵」的说法谁对谁错。
(2)为什么「公式算出的香农信息量」和「直观感受到的日常信息量」,两者大小是矛盾的。
这一期我们会来回答这两个问题。
香农认为「信息是熵」,维纳认为「信息是负熵」。
这两种说法是互相矛盾的,总有一方是错误的。
但还有一种可能,就是两种说法都是错的。
站在哲学视角上,很容易看清楚问题出在哪里。
尺子有个属性叫做长度,长度为10cm,但:
尺子 ≠ 长度
同样的,信息有个属性叫做「信息量/熵/信息熵/香农熵」,信息量为1bit,但:
信息 ≠ 信息量 = 熵
所以当你开始纠结「信息是熵」还是「信息是负熵」的时候,就已经掉进陷阱了。
在更正了第一个错误之后,那么香农真正表达的意思应该为:
信息具有不确定性。
对于不确定性进行测量可以得到不确定程度。
不确定程度的值称为「信息量/熵/信息熵/香农熵」。
我们在上一期文章里讲过,即便我们认为「信息不是物质和能量」,但是也仍然可以断言:
信息的存在依赖物质和能量。
一段文字和一段声音的在形式上是完全不同的,但是它们可以含有有相同的信息量。
例如,一段写在纸上的「GoneMeme」的文字和用声音说出来的「GoneMeme」,它们有着相同的信息量,但是它们的物理属性是不同的。
写在纸上的「GoneMeme」和「HoneWeie」也拥有着相同的信息量,但是它们显然是不同的物质和信息。
两把尺子,即便它们的长度相同,我们也不能说它们是完全相同的尺子。
因此我们需要把信息,以及承载信息的物质和能量看成是一个整体的系统,然后将这个系统定义为信息。
这一点很不起眼,却是我们接下来所有讨论的前提。
在修正了这一逻辑错误之后,香农的观点可以被重新阐述为:
信息是熵系统,具有不确定性。
对于不确定性测量得到不确定程度。
不确定程度的值为「信息量/熵/信息熵/香农熵」。
维纳的观点可以被重新阐述为:
信息是负熵系统,具有确定性,可以消除不确定性。
对于不确定性进行测量得到不确定程度。
不确定程度的值为「信息量/熵/信息熵/香农熵」。
可以看到,香农和维纳都同意:
信息量是熵。
那么现在争论就变成了「信息是熵系统」还是「信息是负熵系统」。
香农认为信息是熵系统,具有不确定性。
而维纳认为信息是负熵系统,具有确定性,可以消除不确定性。
很显然,维纳的诠释是符合直觉的,而香农的诠释是违反直觉的。
香农认为信息越多,越具有不确定性。
但我们日常生活中,获取越多的信息,就越确定,越能不确定性越少。
所以要么是香农的说法错了,要么是我们的直觉错了。
2. 信息是0熵系统
有一件事情是肯定的:
「香农信息量」的计算结果和「日常信息量」的直观感受是相反的。
这种矛盾感并非只有HW君自己一人发现,实际上有很多人有察觉到。
而造成这种矛盾感的可能性有3种:
(1)香农信息公式是错误的。
(2)人们的直觉是错误的。
(3)香农的诠释是错误的。
其中(1)的可能性最小,因为香农信息量公式已经被反复证明是成立的。
人们对香农信息量公式的应用取得了令人瞩目的成就,这些成就不太可能都是建立在一个错误的地基上。
今日这个波澜壮阔的信息时代正是香农信息量公式正确性的最好辩护。
所以有些人把目光放在对于香农信息论的诠释上,尝试发明了一些补丁来调和这种矛盾。
为了弥合这种矛盾,人们引入了一些补丁,这里再简要地回顾一下上一期的内容。
这些补丁大致可以分为两大类:
补丁1:加入时间概念。
把信息分成已知信息和未知信息,日常生活使用「信息量」时是指已知信息的「信息量」。
补丁2:否认两种概念相同。
即认为同一个事物存在两套数学性质不同的信息,因而能得出两种不同的信息量,它们的使用场景不同。
「补丁1」是逻辑不自洽的,而「补丁2」逻辑自洽但不够简洁,不符合奥卡姆剃刀原则。
这里面「补丁1」的逻辑错误在于:
所有的已知信息,其信息量都为0。
这句话乍看上去非常的不符合生活直觉,但是它却是符合逻辑的:
因为:
所有的已知信息都是确定的,没有不确定性,其不确定程度都0。
不确定程度=信息量=熵
所以:
所有的已知信息,其信息量都为0。
因此我们认为:
所有的已知信息,其信息量都为0。
它也可以表述为这样的形式:
已知信息的熵为0。
而我们日常生活中使用的「信息」其实就是已知信息,「已知」这个前缀是没有必要的。
然后再引入第一小节的「系统观念」,那么这个命题最后可以被表述为:
信息是0熵系统。
这是一个成立的真命题,即便它违反直觉,但它符合香农信息公式的计算结果。
而这个真命题就是解决矛盾的关键点。
到这里简单阶段性小结一下。
信息是一个包含物质和能量的系统,这个系统具有一个属性叫熵
熵可以描述系统,但系统不等同于熵。
不同的系统可以具有相同的熵,但是我们不能因此忽视它们的不同,把它们当作同一个系统。
这个思维翻转其实就是将上一期文章我们讲的香农的第一个思维翻转,给重新翻回去。
于是接下来的工作便是,基于「信息是0熵系统」,构造一个逻辑自洽并且更符合奥卡姆剃刀原则的「补丁3」,对香农信息公式进行重新诠释。
3. 信息的HW诠释
这一小节,HW君会从「信息是0熵系统」这个命题出发,阐述一个更优的诠释。
这个诠释是自洽的,并更加符合奥卡姆剃刀原则。
它要求我们对现有的「熵」的概念进行重新理解。
这个诠释是一个原创,或者说至少在中文互联网上还没有看到过类似的诠释。
所以这里HW君将其命名为「信息的0熵系统诠释」,或者狂妄一点叫「信息的HW诠释」。
其要挑战的理论是「信息的香农诠释」。
这里HW君先把观点罗列出来,在下一小节里我们再详细讲解。
信息的HW诠释:
(1)信息是一种由物质和能量构成的熵系统。
(2)将某个熵系统的熵定义为0,那么可以用该0熵系统去测量另一个熵系统的熵。
(3)假设存在一个0熵系统Y和一个熵系统X。
不考虑0熵系统Y,我们可以用香农信息熵(information entropy)公式求得熵系统X的信息熵:
(4)但此时用香农条件熵(conditional entropy)公式也可以得到一个同样的结果。
即用0熵系统Y去测量熵系统X,也就是求在完全确定Y的情况下X的条件熵,那么:
H(X|Y):在确定系统Y发生情况下,X的熵。
H(X):系统X的熵。
H(X,Y):系统X和系统Y共有的熵,也叫「互信息」(mutual information)。
因为Y是0熵系统,也就是确定事件所以必然发生,没有不确定性,发生的概率为PY=1。
又因Y是0熵系统,熵为0,那么Y与X没有共有信息,因此Y和X的「互信息」为0。
因此以熵系统X基于0熵系统Y的条件熵,其结果正好是一个信息熵的形式。
(5)这样的信息熵有无数个,取决于基于什么样的0熵系统去求条件熵,采用不同的0熵系统可以得到不同的信息熵。
(6)推论:香农信息熵(information entropy)是香农条件熵(conditional entropy)一个特例。
不存在纯粹的信息熵,所有信息熵都是条件熵。
(7)因此香农信息量和日常信息量的矛盾可以得到解释。
我们把0熵系统当作一把可以测量熵系统的熵的尺子。
在香农构建的体系里:
存在多个不同的0熵系统Y(Y1,Y2,Y3,...),去测量同一个熵系统X,得到相同系统的不同的熵(信息量)。
在日常感受到的体系里:
存在同一个0熵系统Y,去测量多个不同的熵系统X(X1,X2,X3,...),得到不同系统的熵(信息量)。
4. 信息的测量
我们要如何获得一个可能事件的不确定程度(信息量)?
大部分学习信息论的人会脱口而出,用香农信息公式:
不,HW君想知道的不是这个。
我想问的不是「如何计算一个信息量」。
我想问的是「如何获得一个信息量」。
举个例子:
如何获得一张纸的长度?答案是用一把尺子去测量。
如何获得一杯水的温度?答案是用一个温度计去测量。
...
如何获得一个粒子的态?答案是用一个仪器去测量。
我们在测量某个物体的长度时,总需要使用到一把尺子。
那么在测量某个可能事件的不确定程度时,我们是拿什么作为基准的「尺子」?
答案是用一个「0熵系统」作为测量的尺子。
即可以得场景1:
将一个熵系统Y定义为基准的0熵系统。
然后用0熵系统Y去测量某个熵系统X的不确定程度,得到熵系统X的一个条件熵。
而人们常常无视这个作为基准的0熵系统,称这个条件熵为信息熵。
同样的,我们可以用一个熵非0的熵系统Z用做基准去测量熵系统X。
那么可以得场景2:
熵系统Z的熵非0。
用熵系统Z去测量一个熵系统X的不确定程度,得到熵系统X基于熵系统Z的条件熵。
即香农信息熵是香农条件熵一个特例。
也就是说,我们平时在使用香农的信息公式,去「计算」一个信息Y(0熵系统)的信息熵时。
我们计算得到的那个信息熵,并不是这个信息Y的熵,而是另外一个熵系统的熵。
这个信息Y的信息熵为0,它是确定的,没有不确定性。
打个比方,求香农信息量是用不同尺子去测量同一个东西。
而直观感受日常信息量时,是在用同一把尺子去测量不同的东西。
而信息就是那一把作为测量基准的尺子。
在香农信息论中,我们规定好了要测量的东西是什么,然后用不同的尺子去测量它的不确定性。
选择不同尺度的尺子,我们会测出不同的不确定性。
当我们的尺子变成了要测量的东西本身时,那么不确定性就没有了。
而在日常生活中,HW君发送了一条信息给你。
这意味着,HW君发送了一把尺子给你。
至于你用它去测量何种事物的不确定性,那取决于你。
因此这也解释了,物理性质完全相同的一条信息,有人觉得信息量大,有的人根本没有信息量。
5. 基于新范式的猜想
不知「信息的0熵系统诠释」是否算得上是信息论的一个新范式。
它会给我们的观念带来许多前所未有的变化。
包括但不限于:
(1)测量是相对的。
(2)熵依赖测量,即熵也是相对的。
(3)因此「测量总存在误差」,可以被解释为「无法构建绝对的0熵系统」。
(4)「无法构建绝对的0熵系统」导致了总是无法测得一个熵系统全部的熵,即丢失了两个系统的互信息(mutual information)。
(5)语义信息和香农信息本质上没有什么不同,不存在一种独立于香农体系的人类专用的语义信息。
(6)数学是我们用来丈量世界的最理想的0熵系统吗?
(7)量子力学的测量和熵的测量会有什么联系吗?
...
这些由新范式带来的新的不确定性(熵),HW君会在「信息哲学」系列的后续文章里,用「信息的HW诠释」这个尺子进行逐一测量。
而本章其实我们还留下了一个问题没有完全解答。
HW君只回答了,为什么香农信息量和日常信息量给人的感觉是不同步的。
但是HW君并没有回答:
为什么获知一个新的信息(0熵系统),会让人感觉获得了更多的信息量(熵)。
这些问题,以及新增的更多问题,就留到这个系列的后续文章里慢慢分析。
(本章节完,敬请期待下一节)
By HW君 @ 2021-04-28