机器学习概率统计知识(1): 无偏估计与有偏估计

引言

在机器学习中经常会接触到无偏估计和有偏估计这两类概念，本文汇总了多篇博客是讲解内容，旨在深入透彻地理解这两个概念

有问题欢迎在交流区探讨学习，QQ：761322725
码字不易，好心人随手点个赞👍

有偏估计（biased estimate）是指由 $\color{red}{样本值求得的估计值}$ 与 $\color{blue}{待估参数的真值}$ 之间有系统误差，其期望值不是待估参数的真值。
在统计学中，估计量的偏差（或偏差函数）是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。在统计学中，“偏差”是一个函数的客观陈述。

一句话概括就是，有偏估计是在样本估计值和真值间存在误差的估计 $\color{red}{\mathbb{E}(\hat{\theta} )\neq \theta }$

$\color{red}{D_{有偏}(X)=\sigma ^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\hat{\mu})^2}$
$\hat{\mu}=\frac{1}{n}\sum_{i=1}^nx_i$
我们在日常统计中常用的样本方差即是有偏估计量

无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值，则称此此估计量为被估计参数的无偏估计，即具有无偏性，是一种用于评价估计量优良性的准则。
无偏估计的意义是： $\color{red}{在多次重复下，它们的平均数接近所估计的参数真值。}$
无偏估计常被应用于测验分数统计中。

$\color{red}{D_{无偏}(X)=\sigma ^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat{\mu})^2}$

假如，我们可以采样无穷无尽的样本，那么理论上下面的估计就是精确的,
$\begin{equation}\begin{aligned}\sigma^2 =&\, \mathbb{E}\left[(x - \mu)^2\right]=\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2\\ \mu =&\, \mathbb{E}[x]=\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n x_i\end{aligned}\end{equation}$
这也可以理解为，当样本数趋于无穷时，有偏估计和无偏估计等价。

分析讨论

为什么分母项变成n-1就成了无偏估计呢？

下面我们来证明其是无偏估计和有偏估计！

证明关键在于说明，计算样本估计量的期望值，将该期望值与参数真值进行比较，即计算/证明 $\mathbb{E}(\hat{\theta} )\neq \theta$ 。与上面所提到的样本无穷的假设相较，我们的实际计算中是只能采样一批数据进行计算，

n是一个固定的数字，比如我们随机梯度下降时，用一个batch的样本的平均梯度，来作为整体样本的梯度估计。另一方面，我们也不是估计一次就完事了，
我们可能会估计很多次，即首先采样n个样本，算一次得到 $μ_1$ 和 $σ^2_{有偏1}$ ;
再随机采样n个样本算一次得到 $μ_2$ 和 $σ^2_{有偏_2}$ ，依此类推得到( $μ_3,σ^2_{有偏_3}$ ),( $μ_4,σ^2_{有偏_4}$ ),…，我们想知道的是：
$\begin{equation}\begin{aligned}\mu &\xlongequal{?}\mathbb{E}\left[\hat{\mu}\right] = \lim_{N\to\infty}\frac{1}{N}\sum_{i=1}^N \hat{\mu}_{i}\\ \sigma^2 &\xlongequal{?}\mathbb{E}\left[\hat{\sigma}^2_{\text{有偏}}\right]=\lim_{N\to\infty}\frac{1}{N}\sum_{i=1}^N \hat{\sigma}^2_{\text{有偏},i} \end{aligned}\end{equation}$
苏剑林. (2019, Jun 19). 《简述无偏估计和有偏估计》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6747

$\color{red}{即对各次抽样的估计量计算平均，取期望值}$

也就是说，“有限平均”的“无限平均”，是否等于我们最终要求的平均？

这里我们取用n=2，每次只取两个样本，来以实际例子的讨论无偏估计和有偏估计。

首先看样本均值的估计量 $\hat{\mu}$ ，定义样本均值真实值为 $\mu$ ，两个样本的情况下：
$\hat{\mu} = \frac{x_1+x_2}{2}$
$\mathbb{E}(\hat{\mu})=\mathbb{E}({ \frac{x_1+x_2}{2}})= \frac{1}{2}\mathbb{E}(x_1)+\frac{1}{2}\mathbb{E}(x_2)=\frac{\mu}{2}+\frac{\mu}{2}=\color{red}{\mu}$
可见我们常用样本均值的估计量 $\hat{\mu}=\frac{1}{n}\sum_{i=1}^nx_i$ 是 $\color{red}{无偏估计}$ ，注：此处非标准严格的证明，仅为讨论解释
再看样本方差的估计量 $\hat{\sigma}^2$
$\hat{\sigma}^2 = \frac{1}{2}((x_1-\frac{x_1+x_2}{2})^2+(x_2-\frac{x_1+x_2}{2})^2)$
$\mathbb{E}(\hat{\sigma}^2)= \frac{1}{4}\mathbb{E}(x_1^2+x_2^2-x_1x_2)=\color{red}{\frac{1}{4}({\mathbb{E}}_x(2x^2)-{\mathbb{E}}_{x_1}(x_1){\mathbb{E}}_{x_2}(x_2))}$
$=\color{red}{\frac{1}{2}(\mathbb{E}(x^2)-\mu^2)}$
而准确的方差表达式为 $\color{red}{\mathbb{E}(x^2)-\mu^2}$ ,对上式乘 $\frac{n}{n-1}$ 即2，就可以得到准确方差。说明了其为有偏估计。

直观来看，用有限样本的上式来估计方差，由于样本少了，波动也会变小，所以方差估计也会偏小，这就是所谓的有偏。
极端情况下，如果只采样一个样本进行估计呢？估计出来的方差就是0了，不管怎么重复实验，结果还是0，我们总不能说整批样本的方差一定就是0吧？这便是有偏估计的最简单例子。
并不是所有的有偏估计都可以像方差一样，简单将n换成n−1就变为无偏估计了。一般情形下，我们想要估计的量，连估计本身都很难，更不要说有偏还是无偏了，所以要对一般的估计量消除偏差，都得具体问题具体分析了

推导证明

我们来尝试证明
$\mathbb{E}(\hat{\sigma}^2)=\sigma^2$
$\mathbb{E}(\hat{\sigma}^2)=\mathbb{E}(\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat{\mu})^2)$
$=\mathbb{E}(\frac{1}{n-1}\sum_{i=1}^{n}(x_i^2+\hat{\mu}^2-2x_i\hat{\mu}))$
$=\frac{1}{n-1}\mathbb{E}(\sum_{i=1}^{n}(x_i^2)-n\hat{\mu}^2)$
$=\frac{1}{n-1}(\sum_{i=1}^{n}\mathbb{E}(x_i^2)-n\mathbb{E}(\hat{\mu}^2))$
$\color{red}{D(x)=E(x^2)-E(x)^2}$
代入上式可得：
$=\frac{1}{n-1}(\sum_{i=1}^{n}(D(x_i)+E(x_i)^2)-n\mathbb{E}(\hat{\mu}^2))$
$=\frac{1}{n-1}(\sum_{i=1}^{n}(\sigma^2+\mu^2)-n(D(\hat{\mu})+E(\hat{\mu})^2))$
$\color{blue}{D(\hat{\mu})=D(\frac{1}{n}\sum_{i=1}^nx_i)=\frac{1}{n}D(x_i)}$ //总样本方差与抽样方差相等
$=\frac{1}{n-1}(\sum_{i=1}^{n}(\sigma^2+\mu^2)-n(\frac{1}{n}\sigma^2+\mu^2))$
$\color{red}{=\sigma^2}$

通过上式也直接证明了n-1式的无偏估计特性

在各类科学计算工具包中，对这两种估计都有不同的实现，使用时应该根据需要选择区分。

参考资料

https://blog.csdn.net/cx1165597739/article/details/93330524
https://blog.csdn.net/weixin_31866177/article/details/89003517
苏剑林. (2019, Jun 19). 《简述无偏估计和有偏估计》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6747

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,898评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,401评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,058评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,539评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,382评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,319评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,706评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,370评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,664评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,715评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,476评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,326评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,730评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,003评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,275评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,683评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,877评论 2赞 335

机器学习概率统计知识(1): 无偏估计与有偏估计

引言

分析讨论

推导证明

参考资料

推荐阅读更多精彩内容