文:HW君
当我们在谈论熵时,我们在谈论些什么。
——HW君
系列文章:
本文目录:
1. 尺熵系统与被测熵系统
2. 指代熵系统
3. 通信的元尺熵系统
4. 谁的信息量
1. 尺熵系统与被测熵系统
在上一期《信息哲学 | #2 信息的HW诠释》我们提出了「信息是0熵系统」的观点。
不过这几天HW君重新思考,认为「信息是0熵系统」的说法并不妥当。
首先「信息是熵系统」的说法是没问题的。
但断言「信息的熵为0」则是HW君用了另外一个作为基准的「0熵系统」对信息进行测量后得出的结论。
如果采用不同的基准去测量,那么同一个信息也会得到不同的非0熵。
因此「信息是0熵系统」这样的结论并不严谨。
这就是还没有想明白便开始写文章的坏处,不过也没有办法,边写边迭代才是效率最高的做法。
在思索许久之后,HW君决定用「尺熵系统」和「被测熵系统」来替换原来的概念。
一个信息,它毫无疑问是一个熵系统,信息依赖物质和能量。
这个信息可以作为一个「尺熵系统」,去测量其他不同的「被测熵系统」,得到不同「被测熵系统」的熵值。
它也可以作为一个「被测熵系统」,被其他不同的「尺熵系统」所测量,而得到自身的不同熵值。
这样的表述才是完整的。
2. 指代熵系统
回顾一下到第一期《信息哲学 | #1 信息是熵还是负熵?》。
面对「公式计算出来的香农信息量」和「直观感受到的日常信息量」之间的矛盾感,人们发明了一些补丁。
这些补丁大致可以分为两大类:
补丁1:加入时间概念。
把信息分成已知信息和未知信息,日常生活使用「信息量」时是指已知信息的「信息量」。
补丁2:否认两种概念相同。
即认为同一个事物存在两套数学性质不同的信息,因而能得出两种不同的信息量,它们的使用场景不同。
日常生活中,其实经常出现像「补丁1」这样的「已知信息量」的情况。
我们看这样的一个场景:
HW君有一个4GB的U盘,然后HW君往U盘里复制了一个1GB的文件,于是还剩下3GB的空间。
这个场景描述的是一个我们日常生活中司空见惯的事情。
上面这个复制文件的例子中,描述文件大小的单位是GB,也就是Gigabyte,它可以进行下面这样的换算:
1GB= 1024MB= 10242 KB= 10243 B= 10243*8bit
也就是说,我们经常使用到的硬盘容量、文件大小等概念,其实它们都是熵(信息量/信息熵/香农熵),单位为bit。
这些熵的求解,都符合香农信息量公式。
为了简化说明问题,我们假设有一个4bit的U盘。
我们用「*」来表示什么都没有记录,然后我们可以向U盘里拷贝「0」或「1」的文件。
在初始状态下,U盘的空闲容量和总容量均为4bit,初始状态可以表示为「****」。
然后HW君往U盘里复制了一个文件「1」,那么此时U盘的状态更新为「1***」。
此时U盘已用容量为1bit,空闲容量为3bit,复制的这个文件的大小为1bit,U盘的总容量为4bit。
然后HW君继续复制剩下的3个数据,最终U盘的状态更新为「1101」。
在这个过程中间,我们可以描述这样的一个瞬间:
当HW君把大小3bit的文件「110」复制进这个大小4bit的U盘「****」后,
HW君得到了一个总容量4bit的U盘,其中已用容量为3bit,空闲容量为1bit,状态为「110*」。
这样的一个司空见惯的表述,有没有问题呢?
有的,那个大小为3bit的文件「110」,用香农信息量公式算得的熵是0bit。
它是已知的,没有不确定性。
但是我们平时还是一直会认为那个「110」的文件,其熵就是3bit。
这其实也就是补丁1的说法。
这其实是一个符合直觉的混淆。
当我们说「110」这个文件的大小是3bit时,我们是说「110」这个文件占用了一个状态为「***」的空间,这个「***」空间的熵为3bit。
而状态为「110」的信息,用香农信息量公式求得的熵是0bit。
我们认为「110」的大小是3bit,是在说另一个虚拟的熵系统「***」的熵是3bit。
这里HW君将这类虚拟出来的熵系统称为「指代熵系统」。
信息「110」和指代熵系统「***」是两个完全不相同的事物。
「110」是一个0bit的0熵系统,而「***」是一个3bit的熵系统。
但是人们常常用后一个虚构的指代熵系统来指代一个确定的0熵系统。
这种指代在大多数情况下不会产生什么影响,直到我们开始进行一些涉及细枝末节的哲学思考。
这里我们把状态为「****」的4bit的U盘看做一个等待测量的「被测熵系统」。
那么「1」「11」「110」「1101」就是4种不同类型的「尺熵系统」。
这4个尺熵系统的熵为0,可以用来测量被测熵系统的熵,得到同一个被测熵系统「****」的不同的熵。
而人们也会用「*」「**」「***」「****」这四个指代熵系统,来分别指代「1」「11」「110」「1101」这四个熵为0的尺熵系统。
那么还有一个问题就是,如何知道「1」「11」「110」「1101」这4个尺熵系统的熵为0?
3. 通信的元尺熵系统
香农构建起来的现代通信体系中,往往一定会基于这么一个前提:
抛一枚硬币,要么是正面,要么是反面。
在数字电路中,要么是高电平,要么是低电平。
一个bit的状态,要么是0,要么是1。
...
这样的一种表述即构建起了一个通信过程中最底层的「元尺熵系统」。
这样的表述它本身可以构成一个熵系统,这个系统可以用来测量所有现代通信工程中的信息的熵。
基于这个元尺熵系统,可以测得「1」「11」「110」「1101」这些信息的熵都为0。
因此HW君在上一期认为信息都是0熵系统,现在看来还是有点武断了。
当我们用现代通信技术发送一个信息时,例如发送「110」。
我们可以把这个信息当作一个被测熵系统,然后用元尺熵系统测量这个信息,就可以得到信息的熵为0。
例如「110」这个信息,用元尺熵系统进行测量,它的熵是0。
但是日常生活中,我们会用另一个虚拟的熵系统「***」来指代「110」。
而这个指代熵系统「***」用元尺熵系统测量出来的熵是3bit。
当这个信息发送之后被接受者接收,接受者便不再将它视为一个用元尺熵系统测量的被测熵系统,而是作为一个尺熵系统来使用,以测量其他被测熵系统。
例如我们把「110」当作一个尺熵系统,用它去测量另一个熵系统「****」的熵。
那么被测熵系统「****」的熵是1bit。
但尺熵系统「110」的熵仍然为0。
而如果用同一个尺熵系统「110」去测量另一个被测熵系统「*****」。
那么被测熵系统「*****」的熵是2bit。
因此同一个信息「110」,作为被测熵系统而被元尺熵系统测量时,其熵为0。
而作为尺熵系统去测量不同的被测熵系统时,可以得到不同被测熵系统的不同熵值。
而同时,「110」还对应着一个虚拟的指代熵系统。
这个指代熵系统用元尺熵系统进行测量的结果是3bit。
而无论是「尺熵系统」、「被测熵系统」、「指代熵系统」还是「元尺熵系统」,对它们的熵值的求解都满足香农信息量公式。
4. 谁的信息量
我们在上一期《信息哲学 | #2 信息的HW诠释》结尾留下了这么一个问题:
为什么获知一个新的信息(0熵系统),会让人感觉获得了更多的信息量(熵)。
要回答这个问题,则需要先分辨出,当我们在谈论「信息量」时,我们到底在谈论些什么。
我们日常语境中,对于「信息量」的说法其实混成一锅粥。
当我们在说某一个信息的信息量时,究竟是在说哪种类型的信息量:
(1)这个信息作为被测熵系统,基于元尺熵系统的熵
(2)这个信息作为被测熵系统,基于某个尺熵系统的熵。
(3)这个信息作为尺熵系统,某个被测熵系统基于这个信息的熵。
(4)这个信息的某个指代熵系统,基于元尺熵系统的熵。
(5)这个信息的某个指代熵系统,基于某个尺熵系统的熵。
(6)这个信息的某个指代熵系统作为尺熵系统,某个被测熵系统基于这个指代熵系统的熵。
...
这些情况非常多,令人头疼。
不过我们有2个灯塔可以避免迷路:
(A)熵的测量至少涉及到2个系统
(B)熵的结果都满足香农信息量公式。
绝大多数对于熵/信息量的争论,其实是在基本概念上的混淆。
争论的双方说的并不是同一个类型的信息量。
(本章节完,尽请期待下一节)
By HW君 @ 2021-05-06