注:说人话的统计学系列原连载于协和八微信公众号。本文为笔者的学习笔记,每篇文章标题已加入原文超链接。如侵权请告知。
第3章 t 检验:两组平均数的比较
01想玩转t检验?你得从这一篇看起 | 协和八
怎样用样本来判断总体的平均值呢?
根据样本均值与标准值的差距、样本均值的波动范围算出两者的比值,然后用这个比值的大小来做判断
那如何获得样本的平均质量的波动范围呢?
样本平均值的波动是由单个随机变量的波动和样本大小所决定的。
如果样本大小为N,样本平均值的波动(标准差)等于总体波动(标准差)除以根号N。
检验统计量 (test statistic)
标准化了的样本与总体均值的差距
样本均值记为X拔,总体均值记为μ0,总体的标准差为σ,样本大小为N,这个比值就是检验统计量
任意一个正态分布可以由两个参数确定,一个是它的均值(也叫位置参数)µ,决定它在数轴上的什么方位;一个是其标准差(也叫形状参数)σ,决定它的胖瘦。因此,我们把正态分布记为N( µ, σ)。
令统计量
则z服从标准正态分布N(0,1)。
当样本量N足够大时,S会非常接近σ,t也会很接近标准正态分布。但是当N比较小时,样本方差往往会小于总体方差,比如在只有一个样本的极端情况下,样本方差必然是0,这显然比总体方差要小了。
由于这个原因,N比较小时,t的分布就会偏离正态分布。统计学家发现,在总体服从正态分布的前提下,t会服从另外一种分布,称为学生t分布。
在用t检验时,增加样本的数量是提高统计显著性的有效手段。
「学生」是发现这个分布的数学家戈塞特(Gosset)的笔名,他于1908年在一个叫Biometrika的杂志上,发表了关于t分布的文章,当时就是用的这个笔名。为什么发文章要用笔名呢?因为当时Gosset在Guiness啤酒厂(是的你没有看错,就是那个现在还存在的健力士牌黑啤酒)工作,为了检测啤酒质量而发明了t分布。可是,公司不允许员工公开发表研究成果,于是戈塞特才被迫用笔名发表了文章。
02 就是要实用!t 检验的七十二变 | 协和八
单样本t检验
在总体服从正态分布的前提下,统计量 t 服从一个类似于正态分布的概率分布——t 分布。对于任意的 t 值,我们可以根据 t 分布的性质(我们在上一集的末尾提到,它其实还与样本量 N 有关)算出对应的「与样本相同或更极端」的概率,这就是我们所说的 p 值了。
这个例子所使用的 t 检验,是将样本的平均值与某个特定的标准值相比较,称为单样本 t 检验(one sample t test)
单侧检验p 值就是 t 分布下由数据所得的 t 值左边的曲线下的面积了。
由于 t 分布是对称的,因此对于同样的样本而言,双侧检验对应的 p 值将会是单侧检验的两倍。
成对样本t检验
要比较两个平均值的差别,而不是一个平均值和已知标准值的差别。这时,我们要使用的统计检验被称作「成对样本的t检验」(paired samples t test)。
这里两个样本中的每个数据点都是一一对应的
成对样本的 t 检验最常见于同一组实验对象两个时间点(比如说干预前后)之间的比较。
独立样本的 t 检验
独立样本的 t 检验(independentsamples t test)。顾名思义,它用于比较来自两个独立的样本的均值。
而这两个样本可能来源于两个不同的分布,因此在确定 t 统计量的分母时,我们需要考虑两个样本所来自的分布是否有相同的发散程度(即方差)。因此,在我们使用独立样本的 t 检验之前,需要先进行另外一个检验,查看两个样本各自来自的分布方差是否相等,进而对 t 统计量以及有效的样本量(称为「自由度」)进行不同的处理或修正
使用Levene 氏检验 (Levene’s test)分析两个分布方差是否相等,并分类为
方差相等的独立样本的 t 检验
方差不相等的独立样本的 t 检验
t检验不能做什么
- 不能用于非连续变量的比较
- 不能用于超过两组变量之间均值的比较
- 即便是连续型变量,如果不服从正态分布,也不能用 t 检验
03 不是正态分布,t 检验还能用吗?| 协和八
总体的分布
样本的分布
抽样分布
样本平均值(或者样本的其他统计量,如标准差等)因为抽样随机性产生的分布,称为抽样分布
当样本量足够大时,抽样分布的正态性就会比较好,t 检验计算出的 p 值从而比较准确。
定性的判断样本数据的分布情况
频率直方图
为了将数据的分布和正态分布做比较,我们需要一个参考正态分布,具有与待测样本相同的均值和方差,然后通过对比这两个分布的形状来判断手上的数据是不是接近正态分布
q-q 图
q 代表的是 quantile(分位数)
当我们有 n 个数据点时,我们可以计算机模拟出正态分布对应的 n 分位数(此为第一 q,对应 x 轴坐标);同时,我们将数据从小到大排列,就可以得到数据的 n 分位数(此为第二 q,对应 y 轴坐标)。这样我们就能得到一个 q-q 图
q-q 图不仅可以用来判断数据是否符合正态分布,也可以用来判断数据是否符合其它分布,只要用待检测的分布计算出对应的分位数作为 x 轴坐标即可
q-q 图还可以判断两组数据是否来自同一个分布
定量的判断样本数据的分布情况
夏皮罗-威尔克检验(Shapiro-Wilk test)
科尔莫戈罗夫-斯米尔诺夫检验(Kolmogorov-Smirnov test)
总结
- 由于中心极限定理,只要数据量比较大(究竟多大算大,取决于原来总体分布的情况),即使原数据有点偏离正态分布,使用 t 检验也不会有大问题
- 「频率分布图」和「 q-q 图」是判断数据分布情况的好方法
- 真实世界的数据不可能完完全全地符合正态分布,数据量比较大时,使用统计检验的方法判断正态性倾向于判为非正态
- 统计既是科学,也是艺术,当大家多理解了其背后科学原理,就可以根据实际情况,艺术地处理数据
04 只有15个标本,也能指望 t 检验吗?| 协和八
有些书认为,当样本量为 15 以上时就可以用 t 检验了
十几个数据点用 t 检验靠谱儿吗?
取决于我们的抽样分布在从样本量为 1 一路增长到正无穷时,逼近正态分布的速度
抽样分布趋向正态分布的速度由什么来决定?
那就是总体分布的形状
感性地来说,总体分布与正态分布越相近(连续、对称),抽样分布能近似为正态分布所需的样本量也就越小
如果我们手上的样本量不足以保证抽样分布的正态性该怎么办?
既然总体分布越接近正态分布,抽样分布趋近正态分布的速度就越快,那么一个解决方案便是对数据进行某种转化,使总体分布向正态分布靠拢,从而加快抽样分布逼近正态分布的速度
05 样本分布不正态?数据变换来救场!| 协和八
增加样本量
中心极限定理说了,只要样本量越来越大,甭管那总体分布原来长啥样儿,抽样分布迟早都会变成正态分布
使用其他检验方法
先对数据做一下变换,再进行t检验
对原数据进行函数变换
保证次序不变:此函数必须是单调的
对右偏数据变换
右偏(right-skewed)
正偏态(positive skewness)
例子:人均收入
对数函数 和平方根函数
对左偏数据变换
例子:死亡年龄
取镜像,再用上述方法
或者使用指数函数
数据变换的局限性
并不能解决所有非正态性的问题
对数据进行变换后,重新进行原来计划的统计检验,其意义会发生变化
特例:对数变换 几何平均数(geometric mean)
06 数据变换的万能钥匙:Box-Cox变换 | 协和八
Box-Cox 变换
自动寻找「最佳」变换函数的方法
要确定一个正态分布,只需要两个参数,一是均值(确定分布所在的位置),二是标准差(确定分布的形状有多宽)。
要找到使变换后样本正态性最好的那个 λ,我们只需在所有的 λ 里找出使得正态假设下似然函数最大的那一个。
找 λ 这样的脏活累活交给计算机来干就好了,现在许多数据分析和统计软件都已实现了一键式 Box-Cox 变换的操作。