熵是信息论中的重要概念,它是对不确定性的度量,熵越大,不确定性越大。由此衍生出了条件熵、相对熵、交叉熵、互信息等概念,理解这些概念对于理解机器学习中的模型有很大的帮助,本文将对这些概念进行简单的介绍。
导航
信息熵
信息熵是对不确定性的度量,假设随机变量的概率分布为,则其信息熵为:
联合熵
联合熵是随机变量和的不确定性,其定义为:
条件熵
条件熵是在已知随机变量的条件下,随机变量的不确定性,其定义为:
这个公式可以解释为,是在已知的条件下的不确定性,即联合分布的不确定性减去的不确定性。
我们可以将展开:
互信息
互信息表示引入Y后,X的不确定的下降程度,也即随机变量X,Y之间的信息量,用公式表示为
这个公式可以解释为,是的不确定性减去在已知的条件下的不确定性,即引入之后,的不确定性减少的程度。
展开这个公式:
交叉熵
交叉熵是用来衡量两个概率分布之间的差异,假设有两个概率分布和,则其交叉熵为:
可以将P(x)理解为真实分布,Q(x)理解为预测分布,交叉熵越小,两个概率分布越接近。
当且仅当时,交叉熵最小。
我们可以用拉格朗日乘子法来证明这个结论:
我们可以构造拉格朗日函数:
对求导,令导数为0,得到:
解得:
由于,所以:
因此,当且仅当时,交叉熵最小,最小值为。
相对熵
相对熵也称为KL散度,是衡量两个概率分布之间的差异,假设有两个概率分布和,则其相对熵为:
由此可知,互信息也可以写成相对熵的形式:
图示
我们用一张图来表示这些概念之间的关系,如下图所示:
- H(X)-信息熵
- H(X,Y)-联合熵
- H(X|Y)-条件熵
-
I(X;Y)-互信息