T检验 (STUDENT-T TEST)
一句话介绍:用来比较两个组别均值是否有差异的假设检验。
常见的应用有:单样本t检验、双独立样本t检验、配对样本t检验。
使用t检验的前提条件:1. 近似正态分布 2. 齐方差(即两个样本的方差差不多)
细心的人会提出疑问:这两个前提条件,正态分布和齐方差的主体是谁?要求谁近似正态分布,要求谁齐方差?是样本还是总体?其实是一样的,要求样本符合要求即是要求总体符合要求,要求总体符合要求即是要求样本符合要求,样本和总体只能同时满足或者同时不满足上面的两个条件。为什么?这是因为,样本来自总体,样本继承总体的分布(这里的样本指简单随机样本)。简单随机样本与总体具有相同的分布函数,与总体具有相同分布函数是简单随机样本的定义要求。
(补充:用样本推断总体,样本需要满足什么条件?很简单,样本必须具有代表性,没有代表性的样本怎么去推断总体?那什么样的样本才是具有代表性的?答案是简单随机样本。简单随机样本要求样本具有和总体相同的分布且样本两两独立,即独立同分布。简单随机样本的这两个要求确保了它的代表性。简单随机样本同时具有随机性和独立性。所以,简单随机样本的分布和它总体的分布是相同的)
为什么t检验要数据满足正态分布?
首先t检验是假设检验的一种,并且是参数假设检验。参数假设检验要求数据符合正态分布(为何?因为正态分布是一种非常常见的分布,它具有许多有用的性质,例如它可以很好地描述许多自然现象,也可以通过中心极限定理来近似描述许多其他分布的样本分布。因此,当我们进行参数假设检验时,如果假设总体分布是正态分布,我们可以使用正态分布的性质来进行假设检验)。要做假设检验,就要知道统计量的抽样分布是什么分布(为何?假设检验只在判断数据是否符合前提条件时考虑总体和样本分布,其他时间不关注。它主要关注的是抽样分布,因为这是假设检验的核心。要进行假设检验,必须知道抽样分布的分布情况。假设检验是在做一件事情,即在原假设成立的情况下,计算“获得样本统计量或更极端统计量”的概率(p值),计算这个值就要先知道到抽样分布的分布)。由中心极限定理知道(中心极限定理(CLT)指出,设样本大小为n,如果n够大,则样本均值的抽样分布将近似于正态分布,而与该变量在总体中的分布无关。大样本均值的抽样分布总是正态分布,对于小样本均值的抽样分布来说,如果总体是正态分布,那小样本均值的抽样分布也是正态分布,这就是为什么t检验的前提条件质疑是要求数据呈正态分布),大样本均值的抽样分布接近正态分布,但t检验的样本量都比较小,小样本均值的抽样分布无法得知,所以前提条件要求数据符合正态分布,这样保证了样本均值的抽样分布呈正态。小样本下如果总体不符合正态分布怎么办?看下直方图,只要样本的分布不太偏,差不多是对称的也是可以的。或者使用非参数检验法。
为什么t检验要数据满足齐方差?
假设有两个均值的抽样分布,均值是相等的,但是一个方差很大一个方差很小,两个图的中心在一起,但是一个特别尖一个特别扁平,你能说他们没有统计学差异吗?很显然不行。如果不要求方差齐,仅仅均值没差异也是没有意义的。