2018-02-24

<h1>Jackknife & Bootstrap</h1>

本文用于课后复习,简单明了的记录自己学习的东西,数学不太严谨,请多多指教。

这篇文章仅介绍Jackknife,Bootstrap请看<a>这里</a>。

Jackknife以及Bootstrap均是重抽样(resample)的一种方法。

那么为什么要使用重抽样呢?

假如我们想要统计初中生身高的平均值,由于能采取的样本有限(比如在一所中学中抽取了200名学生)。自然而然地你将两百个身高平均之后得出答案(比如说170cm),那么我就会质疑这个结果的准确性。

你想要向我证明结果的准确性,要怎么办呢?我们只有样本,也只能在样本上下文章。于是你灵光一闪,那我们不如用样本的样本来进行统计。具体的,你在两百个数据中随机抽取150个作为一组,这样有放回的抽取10次,那么可以得到10组1500个数据。这样我们就可以计算出每一组身高的均值以及他们的方差。然后你用这些数据去汇报:“看,1500个数据,我算出了均值和方差,同时可以算出置信区间,你没理由不相信我了!”

这里用样本的样本进行统计,其实就是重抽样。那么下面就是对重抽样的两种方法Jackknife和Bootstrap进行介绍。

## Jackknife

### <font color = red>方差</font>

Jackknife又叫做刀切法,那么怎么切呢?

我们将数据随机切出去一个,用剩余的作为一组新数据。200个学生用Jackknife随机剔除一个,剩余199个学生作为新的一组。

$\hat{\theta}=s(x)$ 表示对样本$x$要估计的参数$\hat{\theta}$ ,<font color = red>这里我们可以看作要估计<b>均值</b></font>,利用刀切法估计的参数表示为$\hat{\theta_{(i)}}=s(x_{(i)})$,其中$i$表示为此次估计剔除了第$i$个样本后进行估计$(x_1,x_2...x_{i-1},x_{i+1},...,x_n)$。即:

$$

\begin{aligned}

  \hat{\theta_{(i)}}=s(x_{(i)})

&=\frac{1}{n-1}\sum_{j\neq i}x_j\\

&=\frac{n\bar{x}-x_i}{n-1}

\end{aligned}

$$

这里$\bar{x}$是样本的均值,并且记$\hat{\theta_{(·)}}=\frac{1}{n}\sum_{i=1}^n\hat{\theta_{(i)}}$,也就是重抽样后所有组进行估计后得到的估计值的均值。

自然而然地可以得到他们的方差,我们记作$\hat{se}_{jack}$:

$$\hat{se}_{jack}=\sqrt{\frac{n-1}{n}\sum_{i=1}^n(\hat{\theta_{(i)}}-\hat{\theta_{(·)}})} $$

在这里我们要计算样本的均值,所以先进行推导:

$$

\begin{aligned}

  \hat{\theta_{(·)}}

  &=\frac{1}{n}\sum_{i=1}^n\hat{\theta_{(i)}}\\

    &= \frac{1}{n}\sum_{i=1}^n\frac{n\bar{x}-x_i}{n-1} \\

    &=\frac{1}{n}(\frac{n^2\bar{x}}{n-1}-\frac{\sum_ix_i}{n-1})\\

    &=\frac{n\bar{x}-\bar{x}}{n-1} = \bar{x}

\end{aligned}

$$

$$

\begin{aligned}

\therefore\hat{se}_{jack}&=\sqrt{\frac{n-1}{n}\sum_{i=1}^n(\hat{\theta_{(i)}}-\hat{\theta_{(·)}})^2}\\

&= (\frac{n-1}{n}\times\sum\frac{(x_i-\bar{x})^2}{(n-1)^2})^\frac{1}{2}\\

&=(\frac{1}{n(n-1)}\sum(x_i-\bar{x})^2)^\frac{1}{2}\\

&=\sqrt{\frac{\sigma^2}{n}}=\frac{\sigma}{\sqrt{n}}

\end{aligned}

$$

也就是说“样本的样本”的方差为$\frac{\sigma}{\sqrt{n}}$,这与我们之前所学的$se(\bar{x})=\frac{\sigma}{\sqrt{n}}$相同($\sigma$是样本的标准差,就是那200个学生的标准差)。

由于我们重抽样出多组新的数据,对于每一组数据都有一个均值,那么这些均值的方差也就有了意义。

---

### <font color = red>偏差</font>

接下来对$\hat{\theta_{(·)}}$是否无偏(bias)进行讨论。

如果$\hat{\theta}=s(x)$是$\theta$的无偏估计,即$E(\hat{\theta}) = \theta$,那么:

$$

\begin{aligned}

    E(\hat{\theta_{(·)}})&=E(\frac{1}{n}\sum_{i=1}^n\hat{\theta_{(i)}})\\

    &=\frac{1}{n}E(\sum_{i=1}^n\hat{\theta_{(i)}})\\

    &=\frac{1}{n}\sum_{i=1}^nE_\theta(\hat{\theta_{(i)}})\\

    &=E(\hat{\theta_{(i)}})\\

    &=\theta \leftarrow \textcolor{red}{E(\hat{\theta})}

\end{aligned}

$$

那么可以看出$E(\hat{\theta_{(·)}})$也是无偏的。

如果$\hat{\theta}=s(x)$是有偏的,记:

$$

\hat{bias}_{jack}(\hat{\theta})=(n-1)(\hat{\theta_{(·)}}-\hat{\theta})

$$

可以理解为<font color = red>每组数据的偏差之和</font>。

那么经过偏差修正,我们可以得到(bias corrected jackknife estimator):

$$

\hat{\theta}_{jack} = \hat{\theta}-\hat{bias}_{jack}(\hat{\theta})

$$

有偏差的估计减去他的偏差就可以得到无偏差的估计$\hat{\theta}_{jack}$。

---

### <font color = red>Pseudo-values</font>

此外,还有一个叫pseudo-values的东西来实现jackknife。他被看作是一个无偏的估计(感觉就和$\hat{\theta}_{jack}$是一种东西)。

我们定义:$ps_i=n\varphi_n(X)-(n-1)\varphi_{n-1}(X_{(i)})$

或者:$ps_i=\varphi_n(X)-(n-1)(\varphi_n(X)-\varphi_{n-1}(X_{(i)})$

这个公式与$\hat{\theta}_{jack} = \hat{\theta}-\hat{bias}_{jack}(\hat{\theta})$简直一摸一样。。。。

其中$\varphi_n(X)$是对n个样本进行的估计,$\varphi_{n-1}(X_{(i)})$是对缺少第$i$个数据的样本进行估计,$ps_i$指第$i$个pseudo-value的估计。

那么n个pseudo-value估计的均值为:

$$

\begin{aligned}

    \overline{ps}&=\frac{1}{n}\sum_{i=1}^nps_i\\

    &=\frac{1}{n}(\sum (n\hat{\theta}-(n-1)\hat{\theta_{(i)}}))\\

    &=\frac{1}{n}(n^2\hat{\theta}-n(n-1)\hat{\theta_{(·)}})\\

    &=n\hat{\theta}-(n-1)\hat{\theta_{(·)}}\\

    &=\hat{\theta}_{jack}

\end{aligned}

$$

由此可以证明此估计确实是<font color = red>无偏</font>的。

同样的,我们来计算他的方差:

$$

\begin{aligned}

    s^2_{ps-jack}(ps_i) &= \frac{1}{n-1}\sum(ps_i-\overline{ps})^2\\

    &=\frac{1}{n-1}\sum(n\hat{\theta}-(n-1)\hat{\theta_{(i)}}-\hat{\theta}_{jack})^2\\

    &=\frac{1}{n-1}\sum(n\hat{\theta}-(n-1)\hat{\theta_{(i)}}-n\hat{\theta}+(n-1)\hat{\theta_{(·)}})^2\\

    &=\frac{1}{n-1}\sum((n-1)\hat{\theta_{(·)}}-(n-1)\hat{\theta_{(i)}})^2\\

    &=(n-1)\sum(\hat{\theta_{(·)}}-\hat{\theta_{(i)}})^2\\

\end{aligned}

$$

而对于$\overline{ps}$来说,其标准差为:

$$

\begin{aligned}

    \hat{se}_{ps-jack}(\overline{ps})&=\frac{\hat{se}_{ps-jack}(ps_i)}{\sqrt{n}}\\

    &=\sqrt{\frac{(n-1)\sum(\hat{\theta_{(·)}}-\hat{\theta_{(i)}})^2}{n}}

\end{aligned}

$$

可以看到此公式与上面非pseudo-value方法里的$\hat{se}_{jack}$相同,即:

$$

\hat{se}_{ps-jack}(\hat{\theta})=\hat{se}_{jack}(\hat\theta)

$$

---

### 置信区间

可以很简单的得到:

$$

CI = [\hat\theta\pm t_{\frac{\alpha}{2}}(n-1)\hat{se}_{jack}(\hat\theta)]

$$

对于Jackknife就介绍到这里,过几天写一篇文章总结Bootstrap,现在就很迷茫,推导公式之后也记不住,不知道有什么好的方法可以扎扎实实的学习统计这门课。共勉吧。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容

  • # Basics ## Standard notations- Variable: $X$ (uppercase ...
    一只叫kevin的蓝精灵阅读 1,560评论 0 0
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,484评论 0 6
  • 对于 D 题的原题意,出题人和验题人赛前都没有发现标算存在的问题,导致了许多选手的疑惑和时间的浪费,在此表示真诚的...
    _Carryon阅读 251评论 0 0
  • 自然选择的分子印迹(精读第三天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇revi...
    xuzhougeng阅读 1,586评论 0 9
  • 文章作者:Tyan博客:noahsnail.com[http://noahsnail.com] | CSDN[...
    SnailTyan阅读 2,364评论 0 4