本篇内容主要讲清信息与熵的概念,为EM算法打下基础。
信息:i(x)=-log(p(x))如果说概率p是对确定性的度量,那么信息就是对不确定性的度量。
独立事件的信息:如果两个事件x和y相互独立,即p(xy)=p(x)p(y),假定x和y的信息量分别为i(x)和i(y),则二者同时发生的信息量应该为i(x^y)=i(x)+i(y)
熵:是对随机变量不确定性的度量。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以说信息熵可以被认为是系统有序化成都的一个度量。
不确定性越大,熵值越大;若随机变量退化为定值,熵为0。熵是自信息的期望。
下图为熵的公式:
熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。
单独的-xlog(x)的函数图像如上左图。
熵是所有情况的集合,所以某事件发生的概率为x,那么不发生的概率为(1-x),以跑硬币为例,出现正面的概率为x,出现反面的概率为(1-x),则整个事件应该计算正面与反面所有的情况,即上右图的公式。
根据上右图的概率图,可以返现,当P=0或1的时候,抛硬币的时间最稳定,H(x)最小,当x=0.5,即正面与反面出现的概率相等时,H(x)最大,抛硬币这个时间最不稳定。
其他关于熵的概念:
平均互信息:决策树中的“信息增益”,其实就是平均互信息I(x,y),衡量X,Y的相似性。
联合熵:两个随机变量x,y的联合分布,可以形成联合熵Joint Entropy,H(X,Y)表示。不能做误差衡量。
条件熵:在随机变量X发生的情况下,随机变量Y发生所新带来的熵定义为Y的条件熵,用H(Y|X),用来衡量在已知随机变量X的情况下随机变量Y的不确定性。可用来计算交叉熵。H(Y|X)=H(X,Y)-H(X),表示(X,Y)发生所包含的熵减去X单独发生包含的熵。
交叉熵:H(T;Y),衡量两个概率分布的差异性,逻辑回归中 的代价函数用到了交叉熵。
相对熵:KL散度,也是衡量两个概率分布的差异性。
小结:信息与熵介绍了很多概念,这些概念单独去看有两个感受不知道重点,不知道怎么用。等到EM算法推导看不懂公式时,再回来看这些概念会好很多,在学习有些需要“死记”这些知识。