在t检验的那篇文章里面,给到了两个样本对比差异的案例,假设我们要对比的样本不仅仅两个而是很多个,那么这时候,我们需要一个新的方法,就是方差分析,ANOVA,analysis of variance。
假设我们这里需要观察三组样本,希望能够分析出来这三组样本是否来源于同一个总体,或者称为同一分布。
我们的零假设:Ho:u1=u2=u3;为了验证H0,假设我们当下还没有ANOVA这个手段,那么从已有t检验方法出发,我们可以将这个验证问题转化为u1=u2;u2=u3;u1=u3的t检验。然而,这样的转化在使用起来并不是很高效,但还好我们有一个新的方法解决这个问题,也就是R.A.Fiser发明了的方差分析。不知道R.A.Fiser是否沿用了t检验的一些思想,在笔者看来两个检验在本质上是一致的。
方差分析的主要思想在于研究不同样本的组间差异(分布)相对于组内差异(分布)的显著性。其中组间差异怎么算?将三个样本打散,得到下图中的总体分布,接下来可以计算三个不同分布相对于总体分布的差异,如下图中红色箭头表示。样本组内差异就只看自己的数据分布状态,如下图黄色箭头。
接下来,我们将组间差异与组内差异两者相除。相除下来的结果可能有不同的情况,以下进行三种情况的解读。
情况1: 组间差异大/组内差异小。组间差异大说明三个样本之间相互之间比较分隔;组内差异小说明样本内部的数据分布比较集中,更加剧不同样本之间的分布差异。此时我们拒绝原假设,其中至少有一个分布不是来源于同一个总体。
情况2: 组间差异适中/组内差异适中。这说明三个样本分布之间可能有一部分的重合。此时我们很难拒绝原假设
情况3:组间差异小/组内差异大。说明三个样本有很大的重合,并且组内数据分布不集中。此时我们也很难拒绝原假设。
给两者相除的结果起个名字,就叫F,这时候大家肯定会疑问多大的F值可以拒绝原假设,我们需要一个衡量水平,而这个衡量水平就是F分布。通过F值与临界值进行比较,推断各样本是否来自相同的总体。