信息熵,KL散度,交叉熵

# 信息熵,KL散度,交叉熵

> **写在前面**

> KL散度只是作为距离度量的一种“不完美”的手段,其被提出的出发点不是为了距离度量

## 信息熵

信息熵是==系统信息含量的量化指标==。香农描述了信息熵的三个性质:

1.  单调性,且概率越高,信息量越低

2.  非负性

3.  累加性,即多随机事件同时发生的总不确定性的度量应等于各事件自身不确定性度量之和

同时,信息熵也可以理解为系统所蕴含的信息量的期望,即系统中各事件的信息量与其发生概率乘积之和:

$$

H(X) =\sum_{x} p(x)I(x)

$$

上式中信息量$I(x)$如何计算成了关键。

根据`累加性`, $H(X)+H(Y) = H(X,Y)$, 这一点和$log()$的性质一致,即$log(x)+log(y)=log(xy)$。由此可以假设$I(x)=Clog(x)$,因为`非负性`,$C=-1$。然后再验证累加性是否成立:

$$

H(X,Y) = H(X) +H(Y) \tag1

$$

> 公式$(1)$是按照`累加性`理解写出来的,但事实上是不成立的,原因看下面推导。

其中,

$$

\begin{aligned}

H(X,Y)

&=C\sum_{(x,y)}p(x,y)log(x,y)  \\

&=C\sum_{(x,y)} p(x,y)  log(p(x \mid y)p(y) ) \\

&=C\sum_{(x,y)} p(y \mid x)p(x)log(y \mid x) +C \sum_{(x,y)} p(x \mid y)p(y)logp(x) \\

&=C\sum_{x}p(x) \sum_{y}p(y \mid x)logp(y \mid x)  +C \sum_{y} p(y) \sum_{x} p(x \mid y) log p(x) \\

&=C\sum_{x} p(x)H(Y \mid x) +C \sum_{y} p(y) \sum_{x} \frac {p(y \mid x)p(x) }{p(y)}logp(x)\\

&=H(Y \mid X) + C\sum_{x}p(x)logp(x)\sum_{y} p(y \mid x)\\

&=H(Y \mid X) + H(X)\\ \tag2

\end{aligned}

$$

对立的,$H(X,Y)=H(X \mid Y) + H(Y)$

因此,

$$

H(X)+H(Y)=2H(X,Y) -H(Y \mid X)- H(X \mid Y) \tag3

$$

这与公式(1)矛盾,说明`累加性`并不能如此理解,如果是理解为信息量的累加,那确实是正确的。但这里明明说的是信息熵。

## 信息量

上面描述中已经提到,为$I(x)=-log(x)$

## 联合熵

上面的描述中$H(X,Y)$就是联合熵:

$$

H(X, Y)=-\sum_{y \in Y} \sum_{x \in X} p(x, y) \log p(x, y)

$$

## 条件熵

表示在已知在随机变量 $X$ 的条件下随机变量 $Y$发生的不确定性。

$$

H(Y \mid X)=\sum_{x \in X} p(x) H(Y \mid x)=-\sum_{x \in X} p(x) \sum_{y \in Y} p(y \mid x) \log p(y \mid x)

$$

## 互信息

两事件的互信息为各事件单独发生所代表的信息量之和减去两事件同时发生所代表的信息量之后剩余的信息量。

$$

I(X, Y)=\sum_{y \in Y} \sum_{x \in X} p(x, y) f(x,y)

$$

其中,

$$

f(x,y)= -\log p(x)-\log p(y)-(-\log p(x, y))= \log \left(\frac{p(x, y)}{p(x) p(y)}\right)

$$

> 这里的$f()$不能写成$I()$,不然更改后会发现互信息为联合熵的表达形式

## 互信息、联合熵、条件熵之间的关系

化简互信息的公式:

$$ \tag{4}

\begin{aligned}

I(X, Y) &=\sum_{y \in Y} \sum_{x \in X} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\

&=\sum_{x \in X} \sum_{y \in Y} p(x, y)(\log p(x, y)-\log p(x)-\log p(y)) \\

&=\sum_{x \in X} \sum_{y \in Y}[ p(x, y) \log p(x, y)- p(x, y) \log p(x)-p(x, y) \log p(y)] \\

&=\sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y)-\sum_{x \in X} p(x) \log p(x)-\sum_{x \in X} p(y) \log p(y) \\

&=H(X)+H(Y)-H(X, Y)

\end{aligned}

$$

结合公式$(3)$,也得到:

$$\tag5

I(X,Y) = H(X,Y) - H(Y \mid X)- H(X \mid Y)

$$

另外,结合公式(2),(5),得到:

$$\tag6

\begin{aligned}

H(X) - I(X,Y) &= H(X) -  H(X,Y) + H(Y \mid X)+ H(X \mid Y) \\

&= H(X) -  (H(Y \mid X) + H(X) )- H(Y \mid X)- H(X \mid Y) \\

&=H(X \mid Y)

\end{aligned}

$$

总的关系图:

![](https://www.hualigs.cn/image/60a9e6b02ca3d.jpg)

用集合的关系理解上面这些符号应该更容易。

## 交叉熵

感性来讲,交叉熵描述当系统中事件分布不真实时,所产生的信息熵偏差现象。例如,事件X的真实分布理论为p(x),但由于观测有噪声,观测到的分布为q(x),此时交叉熵为:

$$

H(p,q)=-\sum_{x} p(x) \log q(x)

$$

> 上式中p,q表示分布,而前面提到的X,Y为系统(或许也可以说是随机变量,随机变量不是标量,是函数)

即仅仅用观测到的信息量替换了原本的信息量。由此会带来熵的差异,即==增加==了不确定性。说增加是因为交叉熵一定大于等于原本的信息熵:

$$

\begin{aligned} \tag7

H(p, q) - H(p) &= -\sum_{x} p(x) \log q(x) + \sum_{x} p(x) \log p(x) \\

&=-\sum_{x} p(x) log \frac {q(x)}{p(x)} \\

&=-E_{p(x)}\left(\log \frac{q(x)}{p(x)}\right) \\

& \geq-\log E_{p(x)}\left(\frac{q(x)}{p(x)}\right) \\

&=-\log \sum_{x} p(x) \frac{q(x)}{p(x)} \\

&=-\log \sum_{x} q(x) =-log(1)=0

\end{aligned}

$$

> 上式中转折为何成立

神经网络训练中用交叉熵作为Loss Function时, 就是为了让拟合出来的分布尽量接近真实分布。越接近,交叉熵越小,直至为0,此时拟合分布和真实分布相同。

## KL散度(相对熵)

其实公式$(7)$中已经定义了相对熵,即表述噪声分布下相对真实分布增加的不确定性:

$$

D_{KL}(p \parallel q) = H(p, q) - H(p)  = -\sum_{x} p(x) log \frac {q(x)}{p(x)}=\sum_{x} p(x) log \frac {p(x)}{q(x)} \geq 0

$$

尽管很多工作用KL散度作为两个分布的距离度量方法,但实际熵KL散度本地并不是用来评估二者相似程度的。

其一在于,KL散度中p、q位置交换,公式结果不相等,这违背了相对距离概念。

其二,KL散度本质是度量相对增加的不确定性。

因此,一些工作中将真实分布和噪声分布的位置颠倒去计算KL散度,看似有问题,实则是为了后续计算期望方便,毕竟不管p、q相对位置如何,KL散度越小,说明二者越接近,且KL散度为0时,说明二者一致。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容