方差分析

受了新冠病毒地袭击,直到今天人类还没有走出阴霾。抗疫前线的医学专家们日以继夜地工作,同时进行着多种药物的临床试验。那么怎么判断哪一种药物效果更好呢?这就要说到一百年前问世的方差分析。


1、引言:

罗森斯得农业实验站很重要的一个工作就是,搞清楚施用不同的混合肥料,马铃薯的产是否会不同。费希尔的做法是在农田中种上马铃薯,同部分施用不同的混合肥料( 下面是一个示意图, 在同一块农田的不同排施用不同的肥料,然后插上牌子进行区分) :

然后在收获后对数据进行采样,看不同实验组的产量是否不同。


2、两个问题

费希尔也知道,马铃薯不是什么工业产品,本身产量就会有波动,肯定不能说某个实验组产多了20%就说该组施用的混合肥料有效果,至钞需要考虑以下两个问题:

(1) 概率:马铃薯的产量X本身具有随机性,比如说服从某正态分布:
X \sim N\left(\mu, \sigma^{2}\right)

根据该分布,产量在 -20 %~20 % 之间波动可能性较大, 因此如果某实验组产量多了 20 % 并没有把握说混合肥料产生了效果(因为不可能知道所有马钠薯的产量, 所以无法真正算出 \mu 也就不可能真正知道该正态分布N\left(\mu, \sigma^{2}\right)

产量在50%之上的波动可能性较小,因此如果某实验组产多了50%, 那么说明混合肥料可能真的产生了效果:

就此,费希尔设计了组间方差这个统计量,当组间方差较大的时候,说明发生了低概率事件,从而说明混合肥料可能真的产生了效果。

(2) 原因:马钠薯的产量 X 如果是随机波动, 那么应该是有增有减的。比如从某个实验组中采样得到五株马铃薯,记录每株的重量,得到五个点。算出该实验组的平均产量 \bar { X} 相对于 \mu 增加了 20%,并且五个点相对于 \mu 有增有减, 分散在 \bar {X} 的四周, 这就说明重量变化是由于随机波动造成的:

如果某个实验组平均产量 \bar {X} 相对于 \mu 还是只增加了20%, 但组内所有的马钠薯植株上的产量都是增加,紧密的围绕在 \bar {X} 的附近,那么说明混合肥料可能真的产生了效果,造成組内所有马铃薯的重量都增加了:

就此,费希尔设计了组内方差这个统计量,当组内方差较小的时,说明该试验组的普遍增产(或减产),也说明混合肥料可能真的产生了效果(组间方差、组内方差这两个统计量接下来会进一步介绍)。


3、假设检验

综合上面两个问题,费希尔设计了一个假设检验:

  • 假设:混合肥料没有效果, 也就是各个实验组的产量的均值相同
  • 检验:设计了 \frac{ \text { 组间方差 } }{\text { 组内方差 }} 这个统计量, 当实验组得到的数据使得该统计量足够大时, 那么 就可以推翻上述假设, 得到混合肥料有效果的结论

从抽样到计算完成该假设检验, 就称为方差分析


4、实战

下面用具体的数据进行下实战讲解。假设有A、B、C三组马铃薯,每组施用不同的肥料。在每组中各选五株,记录每株产出的马铃薯的重量,所表格如下(下面的重也是为了本文讲解设计的,不用较真)

根据上面表格,画出来的图像是这样的:

可以看出:

  • 发生了低概率事件, 即 A 组的样本均值 \bar{ X} _ { A } 远离 \mu
  • 原因很可能是由于混合肥料导致,因为 A 组内的重量紧密围绕在 \bar{ X} _ { A } 附近,这说明整体都增产了,而不是随机波动

所以是很有把握认为这三组产量不同,并且是由于混合肥料导致的。当然上面是定性分析,下面看看如何定量分析。

4.1 组间方差

首先需要知道发生了低概率事件, 即是否有某组 (在本例中是 A 组) 的样本均值远离 \mu因为 \mu 是没有办法真正知道的, 实际计算时只能用所有样本的均值 \bar {X} 来代替 (本例中就是15株马钠薯的均值),然后计算各个实验组的样本均值与 \bar {X} 的距离,累加起来就得到了组间方差:

组间方差 =\frac{5(\overline{X_{A}}-\bar{X})^{2}+5(\overline{X_{B}}-\bar{X})^{2}+5(\overline{X_{C}}-\bar{X})^{2}}{3-1}

忽略其中的常数(这些常数设置是一些数学原因, 不影响本文的整体思路,感兴趣的可以看下教材和证明),可以看出,组间方差较大时说明发生了低概率事件。

4.2 组内方差

将各个实验组的方差加起来就得到了组内方差(其中也多了些常数,暂时可以不用管) :

组内方差 =\frac{\sum_{i=1}^{5}\left(x_{A i}-\overline{X_{A}}\right)^{2}+\sum_{i=1}^{5}\left(x_{B i}-\overline{X_{B}}\right)^{2}+\sum_{i=1}^{5}\left(x_{C i}-\overline{X_{C}}\right)^{2}}{15-3}

其中 x_{A i} 、x_{B i} 、x_{C i} 是各组内的某株马钠薯的重量。组内方差越小,说明各个实验组变换越一致, 越有可能是由混合肥料导致的。

4.3 统计量构造

费希尔接着构造了 \frac{ \text { 组间方差 } }{\text { 组内方差 }} 这么一个统计量, 它综合了 “概率" 和 "原因" 这两个角度。为了说明这点, 我们又对之前的 ABC 三组进行了多次实验, 得到不同的组间方差、组内方差:

解读下:

  • 第一行,组间方差大,说明可能发生了低概率事件;组内方差小,说明组内变化可能一致。本文的例子算出来就是该行。那么有充分的理由相信,这三组中其中某组(也可能是某两组、某三组)的产量有所不同,且这种不同很可能是由于混合肥料造成的

  • 第二行,组间方差一般大,组内方差也是一般大,没有充分的理由相信这三组是不同的,保守一点,我们判断这三组是相同的

  • 第三行,组间方差足够小,说明可能没有发生低概率事件;组内方差足够大,说明可能组内的变化不一样。那么还是保守地判断这三组是相同的

可见统计量\frac{ \text { 组间方差 } }{\text { 组内方差 }}越大,那么三组不同的可能性越大。那具体要大到什么程度,才有把握说三组是不同的呢?这就需要F分布进行最后的检验(F就是Fisher的首字母,所以你也可以称之为费希尔分布)。


5、F分布

可以证明,满足某些条件的情况下(比如总体和样本都是正态分布),统计量\frac{ \text { 组间方差 } }{\text { 组内方差 }}是服从F分布的:
\frac{\text { 组间方差 }}{\text { 组内方差 }} \sim F

此时,当\frac{ \text { 组间方差 } }{\text { 组内方差 }}的值足够大,大到落入F分布的右边区域(也称为拒绝域)时,就有把握说三组是不同的:

至此就完成了假设检验,也就是完成了方差分析:

  • 假设:混合肥料没有效果,也就是各个实验组的样本均值相同
  • 检验:计算统计量\frac{ \text { 组间方差 } }{\text { 组内方差 }}的值,如果所得值落入F分布的拒绝域,那么就拒绝原假设,否则就接受

6、t 检验

之前介绍过t检验,它和方差分析的区别在于, t检验是判断两组数据是否不同,而方差分析可以判断三组或者更多组数据是否存在不同。

从本文介绍可知,差分析只是知道了这三组是否有差异,具体是到是哪组有差异,还需要别的统计方法。比如对这三组两两进行t检验。


转载:https://www.zhihu.com/question/61319844/answer/1206367601

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345