定义:
- 信息量公式:
(一个事件发生时,所包含的信息量,发生的概率越低,包含的信息量就越高,比如明天的太阳打东边升起,就是一句几乎不包含信息的话)
其中为随机变量的某个特定值,是随机变量的概率质量函数 - 熵公式:
(随机变量的信息量的期望值)
离散:
连续:
暂时不讨论 - 相对熵:
(KL散度,讨论的是一个概率如果用另一个概率来描述时,它所需要的额外信息量,被称为信息增量)
现在存在两个概率与,他们都是随机变量的分布函数,现在它们的信息熵分别为:
推导可得交叉熵
- 交叉熵:
其中,就是交叉熵。