香农熵 无序的度量

转载自:https://blog.csdn.net/theonegis/article/details/79890407,有微量改动

其他文章:

https://blog.csdn.net/u010852680/article/details/77869716

https://blog.csdn.net/lanchunhui/article/details/51140053

http://www.ruanyifeng.com/blog/2014/09/information-entropy.html

物理学中的熵

熵也是物理学中的一个概念。简单来说,如果一个系统中的粒子在运动过程中有很多可能的位置,那么这个系统具有比较高的熵值,反之,如果系统中的粒子处于静止状态(粒子的位置相对固定),则系统具有很低的熵值。

例如,水有三种状态:固液气,具有不同的熵值。冰中的分子位置固定,是一个稳定的状态,所以冰具有最低的熵值。水中的分子相对可以进行一些移动,所以水具有中间大小的熵值。水蒸气中的分子几乎可以移动到任何地方,所以水蒸气具有最大的熵值。


Entropy V.S. Knowledge

从Bucket1 到 Bucket3:

不确定性在增加,无序性在增加,熵在增加

有序性在减少,知识性在减少

桶1给出了关于小球颜色最多的知识(因为我们确定地知道所有小球都是红色)


Entropy and Probability

一个系统中的粒子具有很大的可重新排列的可能性,系统具有较高的熵;反之,具有较低的熵。

计算桶中的球可以重新排列的可能情况。对于桶1,只有一种可能性;对于桶2,有两种可能性;对于桶3,有六种可能。这个可以通过二项式系数计算得到。

小球排列情况的计算并不是熵公式的一部分,但是我们可以发现,有越多排列的可能性,则其熵越大;有越少的排列的可能性,则其熵越小。

有放回的小球实验思考熵该如何定义

给定三个桶。游戏规则如下:

首先我们选择一个桶;

以某种颜色排列取出该桶里面的小球,然后将小球放回;

每次从该桶中取出一个小球并记录颜色,并放回;

四次以后如果记录的颜色和2中的颜色排列一致,则我们获胜,可赢得1,000,000人民币,否则游戏失败。


比如我们选择桶2,里面有三个红球,一个蓝球。我们从桶里面以某种特定的排列取出小球,比如说(红,红,红,蓝)这个颜色排列。然后我们开始一次一次从桶里面取一个小球,如果四次以后,我们取出来的颜色排列也是(红,红,红,蓝)这个组合,那么我们就能获胜。

获胜的概率是多少呢?

第一次取出红球的概率是3/4,即0.75;

第二次取出红球的概率是3/4(我们每次都是有放回的取出);

第三次取出红球的概率仍然是3/4;

第四次取出蓝球的概率是1/4,即0.25。

这四次操作都是独立事件,独立事件同时发生的概率使用乘法公式即:(3/4)∗(3/4)∗(3/4)∗(1/4)=27/256(3/4)∗(3/4)∗(3/4)∗(1/4)=27/256,即0.105。这是一个很小的概率。下面的图给出了我们使用每个桶想要获胜的概率。

为了方面说明,下面的图给出了使用每个桶获胜的概率。对于桶1,获胜的概率为1;对于桶2,概率为0.105;对于桶3,概率为0.0625.





为了得到熵的计算公式,我们需要一个大小相反的度量,对于桶1有最小值,对于桶2有一个中间的值,对于桶3有最大值。这个很简单,我们可以使用对数进行处理得到我们想要的结果。

思考如何定义熵第一步·两个类别·将连乘转变为连加

下面的处理使用了很简单的数学技巧,特别是在机器学习中使用的比较广泛。连乘一般都不会得到一个比较好的结果。这里我们有四个数字,每个都不是特别差,但是如果我们有一百万个数据点,这一百万个概率的连乘会得到一个怎么样的结果?可想而知是特别特别地小。一般我们要尽可能地避免连乘。什么比连乘好呢?当然是连加。我们如何将连乘转变为连加呢?对,使用对数函数,因为下面的恒等式特别有用:

log(ab)=log(a)+log(b)log⁡(ab)=log⁡(a)+log⁡(b)

我们有四个概率的连乘,使用对数以后,可以变为四个数字的连加。对于桶2(三个红球,一个蓝球的排列),我们有如下的计算过程:

0.75∗0.75∗0.75∗0.25=0.105468750.75∗0.75∗0.75∗0.25=0.10546875

通过使用对数变换(为了,使得结果是正数,这里在对数前面添加了一个负号),我们有:

现在,只剩下最后一步了。为了对结果进行规范化,我们对该结果取平均。这就是我们要找的熵的近似公式了!对于桶2,其熵为0.811.

如果我们计算桶1的熵,可以得到:

桶3的熵为:

至此,我们已经找到了熵的定义公式:对概率对对数的负值。注意到桶1具有最低的熵,桶3具有最高的熵,桶2居于中间。总结如下:

对于更通用的公式,我们可以总结如下:假设我们的桶里有mm个红球和nn个蓝球,则: 


定义熵·从两个类别引申到多类别

目前为止我们处理了连个类别的熵(红色和蓝色)。为了使得熵和信息论关联起来,我们有必要看一些多个类别的情况。这里为了是情况更加清晰一些,我们使用字母来进行说明。假设我们有三个桶,每个桶里面有8个字母。桶1中的字母是AAAAAAAA,桶2中的字母是AAAABBCD,桶3中的字母是AABBCCDD。我们可以很直观地感受到桶1中的熵最小,但是桶2和桶3的却并不是很明显。我们下面通过计算知道桶3具有最高的熵值,桶2熵值居中。


对于多个类别的可以推广我们对于熵的定义如下:

公式中的nn是类别数,pipi是第ii个类别出现的概率。对于我们的三个桶,我们有如下分析:

对于桶1,只有一个类别(字母A),出现的概率肯定是1,所以熵值为:

对于桶2,我们有四个类别(字母A,B,C和D),A出现的概率是4/8,B的概率是2/8,C的概率是1/8,D的概率是1/8。所以熵值为:


对于桶3,我们也有四个类别(字母A,B,C和D),每个字母出现的概率都是1/4,所以:

对于三个桶,我们总结如下: 

更有趣的在下面,这儿就是信息论发挥作用的地方。

信息论·修改提问方式使得提问方式最小化!即构建决策树!

下面还有一种方式来理解熵。我们还是以从桶中随机取出字母为例。我们要判断从桶中取出的字母平均需要提出多少个问题?(假设有一个人从桶里取字母,另外一个人通过提问得到取出来的是哪个字母)

首先看最简单的情况。对于桶1,我们可以确信取出来的肯定是A。所以我们不用提出任何问题就可以知道从桶里面取出来的字母是什么。用公式简单表示如下:

对于桶2和桶3,可能有人认为通过四个问题可以知道到底取出来的是什么字母。这四个问题如下:

是不是字母A?

是不是字母B?

是不是字母C?

是不是字母D?

其实,这四个问题是有冗余的,因为如果前面三个问题的答案如果是“NO”的话,那么我们肯定知道取出来的屙屎字母D。所以三个问题足够了,但是我们可以做得更好吗?我们提出的问题需要消除冗余。我们可以这样改进我们的提问:

该字母是A或者B?

如果1的回答是“YES”,继续提问是否是字母A?如果1的回答是“NO”,继续提问是否是字母C?

如果这样提问,只需要基于两个问题就可以得到答案:

对于YES,YES的回答,则取出来的是A

对于YES,NO的回答,则取出来的是B

对于NO,YES的回答,则取出来的是C

对于NO,NO的回答,则取出来的是D

以树状结构表示如下:

对于桶3,每个字母出现的概率都是1/4,所以为了找出取出来的字母平均提问的个数应该为2。计算如下:

对于桶2,我们如果使用桶3的提问策略,当然得出的结果也是2,然而我们可以做得更好。我们可以首先提问是不是A,然后问是不是B,然后再问是不是C。 

如果是字母A,则我们只用了1次提问

如果是字母B,则我们只用了2次问题

如果是字母C或者D,则我们只用了3次提问


这样我们的提问顺序如下:

如果是字母A,则我们只用了1次提问

如果是字母B,则我们只用了2次问题

如果是字母C或者D,则我们只用了3次提问

对于是字母C和D,我们3次提问超出了对于桶2的提问策略,但是平均来看,我们可能做得更好。桶3有字母AAAABBCD,A出现了一半,B出现了1/4,C和D都出现了1/8。平均提问次数为:


这就是熵!熵和信息论就是这样关联起来的。如果我们想要找出从桶里取出来的字母,平均需要提出问题的个数就是熵的值。

当然,这引出了更大问题:我们如何确定我们提问的方式是最可能好的?如果提问的方式不是太明显,当然需要做更多的工作。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容

  • 你的数学直觉怎么样?你能凭借直觉,迅速地判断出谁的概率大,谁的概率小吗?下面就是 26 个这样的问题。如果你感兴趣...
    cnnjzc阅读 6,827评论 0 12
  • 今天公司全天员工开会,会前做了一个小游戏“珠行千里”,大部分人上去参与了活动,我和一个比较要好的同事一如既往的不参...
    也许大概可能吧阅读 436评论 0 1
  • 1. 《欢乐颂2》播完了,樊胜美选择了和王柏川和平分手。 很多人评价说她是欢乐颂五美中结局最悲惨的一个,于经济上尚...
    王珊尔阅读 155评论 0 0
  • 快手产品体验报告 这是我的第一篇产品分析,之前对产品有很多想法,一直都在脑海中没有写出来。 为什么要写这篇分析? ...
    张哲瑞_阅读 1,534评论 2 3