熵的定义如下:
条件熵的定义如下:
H(D)和H(D|A)若从训练集得到,则分别称之为经验熵和经验条件熵;
互信息 = H(D) - H(D|A)
信息增益 = 经验熵 - 经验条件熵;
互信息和信息增益理论上是等价的,只不过信息增益是从训练集中计算得到,是一种经验值,互信息是一种理想值。信息增益和信息增益比可以用于决策树选择特征。其思想都是希望被选择的特征能使得之前“混乱”的分类能变得更“确定 ”一些。而我们知道,信息越混乱,其熵就越大,如果选择了特征(即有了条件)之后,信息能变得更“有序”些,那未分类前的熵减去这个条件熵就能体现这个特征提升的“秩序”度。因此,信息增益越大,或者信息比越大,这个特征对分类可能越有利。
交叉熵 与 相对熵/KL散度(摘自github imhuay)
- 定义 P 对 Q 的 KL 散度(Kullback-Leibler divergence):
KL 散度在信息论中度量的是哪个直观量?
- 在离散型变量的情况下, KL 散度衡量的是:当我们使用一种被设计成能够使得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号的消息时,所需要的额外信息量。
KL散度的性质:
- 非负;KL 散度为 0 当且仅当P 和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的
- 不对称;D_p(q) != D_q(p)
交叉熵(cross-entropy):
信息量,信息熵,交叉熵,KL散度和互信息(信息增益) - CSDN博客
交叉熵 与 KL 散度的关系
- 针对 Q 最小化交叉熵等价于最小化 P 对 Q 的 KL 散度,因为 Q 并不参与被省略的那一项。
-
最大似然估计中,最小化 KL 散度其实就是在最小化分布之间的交叉熵。
《深度学习》 ch5.5 - 最大似然估计