强化学习所需的概率基础——期望、均值和方差

首先我也是小白，二懂二懂的，这里只是做个自己的学习记录，以后好随时查看。
很多地方可能不严谨，不过自己明白才是最重要的，所以不要当成学术性文章来看哈，拒绝各种喷子。
当然，非常欢迎指出我的问题，帮助我进步。

仅仅是几个定义

其实期望、均值和方差，就是几个概念而已，不过名字感觉比较高大上，其实弱到爆。

本文按下列顺序来描述这几个概念

期望值
均值
方差

期望值

有书里又叫数学期望 或者简称期望
注意：这里说的期望，是个定值，是个定值，是个定值

数学上的定义

以概率(或密度)为权重的加权平均值。(完全不好理解)

按我的理解其实就是描述一个随机变量概率分布的中心值。

举个🌰

之前我们说过扔骰子，它的数学期望是3.5，是不是觉得有点懵，我计算一下你再看马上就不懵了：

扔骰子的数学期望值 = $1\times\frac{1}{6} + 2\times\frac{1}{6} + 3\times\frac{1}{6} + 4\times\frac{1}{6} + 5\times\frac{1}{6} + 6\times\frac{1}{6} = 3.5$

是不是弱到爆，对，期望就这么简单。

数学表达

机器学习的书中会出现，这里还是记录一下，不然看机器学习的书的时候会很懵。
一般用 $\mathbb{E}$ 表示期望的公式

后面两个公式用到的表示法

大 $X$ 表示一个随机变量
$\mathcal{D}$ 表示随机变量取值范围
$p(x)$ 是概率密度函数
$f(x)$ 是表示随机变量的某次取值

连续随机变量的期望表达

$\mathbb{E}[f(X)]=\int_{\mathcal{D}}p(x) \cdot f(x)dx$

这个公式该这样理解：一个连续随机变量将它的概率密度和观测值的乘积，把这个随机变量所有取值都算上做定积分，就能得到这个随机变量的期望值。
(这句话如果看不懂的话，可以看看之前的关于概率密度函数和随机变量的相关文章)

离散随机变量的期望表达

$\mathbb{E}[f(X)]=\sum_{{x\in\mathcal{D}}}p(x) \cdot f(x)$
和连续随机变量的理解方式差不多，只是不是做积分，而是做求和而已。

均值

不严谨的说，期望值其实就是均值。
唯一不一样的地方是，均值是根据样本数决定的，无限样本的情况下，均值无限接近于期望。
书中一般用符号： $\mu$ 来表示

不过我不当数学家，我只需要了解概念就差不多了，为的是能看懂强化学习里的内容，所以我认为到这里就够了。

方差

方差真的一开始不好理解，我之前一直没理解到，为什么TM的叫方差？
难道这个差TM的长的是方的？
最TM恶心的地方是，这个名词在统计学和概率学中的定义，是TM不一样的！！！

只有忍了，只看概率学方面的吧。

定义

是一个随机变量与它的期望之间的差的平方的加权平均值。
怎么理解呢，可以这样想，方差其实是一个描述变化幅度的指标。
一组数据方差越大，那么他的离散度越大。

数学表达

长这样： $Var(X) = E[(X - \mu)^2]$
其中 $\mu$ 就是期望值(或均值)

举个🌰

还是骰子，我们来计算一下方差：
$\begin{aligned} \\ & = \frac{(1-3.5)^2 + (2-3.5)^2 + (3-3.5)^2 + (4-3.5)^2 + (5-3.5)^2 + (6-3.5)^2}{6} \\ & = \frac{(-2.5)^2 + (-1.5)^2 + (-0.5)^2 + 0.5^2 + 1.5^2 \times + 2.5^2}{6} \\ &= \frac{17.5}{6} = \frac{35}{12} \end{aligned}$

白话的解释

就是一个随机变量的取值与期望值的“距离”，用两者差的平方表示。
原来TM方差的这个方，指的就是这个平方。

顺带引出的"标准差"

方差既然是带平方的，那开方后会肿么样？
数学上把开方后的方差又做了一个名词叫：标准差

小结

学习强化学习，期望、均值和方差，我觉得先了解这么多就够了，还是那句话：缺啥补啥。

最后编辑于：2020.05.16 21:49:54