1. 基础概念及其定义
1.1 原假设()和备择假设()的建立
- 将研究中的假设作为备择假设
例如,认为一种新型教学方法优于目前的方法,则备择假设为新方法更好,原假设为新方法不比老方法好。在这种情形下,若拒绝原假设则为研究中的假设提供了统计上的支持。 - 将受到挑战的假说作为原假设
我们从有关总体参数值的说法是真实的开始,然后,我们利用假设检验对这种假定提出怀疑,并确定是否有统计证据支持得出假定不正确的结论。在这种情形下,首先确立原假设是有益的,原假设表述了对总体参数值的信念或者假定,在备择假设中认为这种信念或者假说不正确。例如,瓶装饮料的标签上注明,每瓶为67.6盎司,我们认为瓶装饮料的标签是正确的,及灌装重量的均值至少为67.6盎司,除非有其他理由,我们通常假设标签上的标注是正确的,但可以对制造商的说法提出质疑。因此,我们从假设标签是正确的开始,设定原假设 为 ,备择假设 为 。如果抽样结果使得我们得到拒绝 的结论,则推断 为真。 - 等号部分()总是出现在原假设中
1.2 显著性检验
- 第一类错误:当 为真时我们却拒绝了
- 第二类错误:当 为假时我们却接受了
测试 | 是真的 | 是真的 |
---|---|---|
接受 | 结论正确 | 第二类错误 |
拒绝 | 第一类错误 | 结论正确 |
- 显著性水平
当做为一个等式的原假设为真时,犯第一类错误的概率称为检验的显著性水平,用 表示,一般取 或者 。如果发生第一类错误的成本很高,则应当选取较小的值作为显著性水平;如果发生第一类错误的成本不高,则可以适当选取较大的值作为显著性水平。 - 应用建议
不论何时,只要未对发生第二类错误的概率加以确定或控制,我们就不能做出接受 的结论,在这种情形下,只能得出两种可能的结论:不能拒绝 或拒绝 。 -
值
值是一个概率值,它度量样本所提供的证据对原假设的支持程度,也是用来衡量检验统计量与根据样本计算得出的检验统计量值存在明显差异的程度。 值越小说明反对原假设的证据越多。
一般将只控制第一类错误的假设检验称为显著性检验。如果 值 ,则我们做出结论“拒绝 ”,并称结果是显著的。
2. 总体均值的检验
2.1 已知的情形
- | 下侧检验 | 上侧检验 | 双侧检验 |
---|---|---|---|
假设 | |||
检验统计量 | |||
拒绝法则: 值法 | 如果 值,则拒绝 | 如果 值,则拒绝 | 如果 值,则拒绝 |
拒绝法则:临界值法 | 如果 ,则拒绝 | 如果 ,则拒绝 | 如果 或者,则拒绝 |
其中, 为标准正态概率分布下侧的面积为 时对应的 值, 为样本容量,绝大多数应用中,样本容量大于等于30时就行;当总体服从正态分布时,适用于任何样本容量;如果总体不是正态分布但至少大致上是对称的,则样本容量需要大于等于15。
法二 用置信区间的方法进行如下形式的假设检验方法
- 从总体中抽取一个简单随机样本,并利用样本均值 建立总体均值 的置信区间。
- 如果置信区间包含假设值 ,则不能拒绝 ,否则,拒绝 。
- 如果是单侧检验,则需要建立的是单侧的置信区间。如果是下侧检验,则建立置信区间 ,如果是上侧检验,则建立置信区间 。
2.2 未知的情形
- | 下侧检验 | 上侧检验 | 双侧检验 |
---|---|---|---|
假设 | |||
检验统计量 | |||
拒绝法则: 值法 | 如果 值,则拒绝 | 如果 值,则拒绝 | 如果 值,则拒绝 |
拒绝法则:临界值法 | 如果 ,则拒绝 | 如果 ,则拒绝 | 如果 或者,则拒绝 |
其中, 为自由度 的 分布下侧的面积为 时对应的 值, 为样本容量,绝大多数应用中,样本容量大于等于30时就行;当总体服从正态分布时,适用于任何样本容量;如果总体不是正态分布但至少大致上是对称的,则样本容量需要大于等于15;如果总体不服从正态分布且数据高度偏斜或者含有异常点,则样本容量需要大于等于50。
3. 总体比率的检验
- | 下侧检验 | 上侧检验 | 双侧检验 |
---|---|---|---|
假设 | |||
检验统计量 | |||
拒绝法则: 值法 | 如果 值,则拒绝 | 如果 值,则拒绝 | 如果 值,则拒绝 |
拒绝法则:临界值法 | 如果 ,则拒绝 | 如果 ,则拒绝 | 如果 或者,则拒绝 |
其中, 为标准正态概率分布下侧的面积为 时对应的 值, 为样本容量,需要 。
4. 考虑第二类错误
4.1 计算第二类错误的概率
当 为假时,做出拒绝 的正确结论的概率称做检验的功效。对于给定的 值,功效为 ,即做出拒绝原假设正确结论的概率等于 1 减去发生第二类错误的概率。 轴为 , 轴为当 为假时做出拒绝 正确结论的概率的曲线为功效曲线。
计算步骤:
- 确立原假设和备择假设。
- 在显著性水平 下,根据临界值方法确定临界值并建立检验的拒绝规则。
- 利用 中所得的拒绝规则,求解与检验统计量的临界值相对应的样本均值的取值。
- 利用 中的结果,得到接受 时所对应的样本均值的值,这些值构成了检验的接受域。
- 对于满足备择假设的 值,利用 的抽样分布和步骤 中的接受域,计算样本均值落在接受域的概率。这一概率即为在选定的 值处发生第二类错误的概率。
4.2 总体均值单侧假设检验中的样本容量
其中, 为标准正态分布的上侧面积为 时对应的 值, 为标准正态分布的上侧面积为 时对应的 值, 为总体标准差, 为原假设中样本均值的值, 为第二类错误中所采用的总体均值的值。注意:双侧检验中,需要用 代替 。
5. 两总体均值之差的假设检验
5.1 和 已知的情形
令 表示 与 之间假设的差,假设检验的 种形式如下:
其检验统计量为
应用建议:随机样本量需要满足 。如果其中之一或两者的样本容量小于 ,总体的分布需要近似服从正态分布。
5.2 和 未知的情形
当 和 未知时,我们用样本标准差 和 来估计 和 。
其检验统计量为
其中, 统计量的自由度采用如下计算公式
应用建议:如果两个总体的样本容量 和 相等或接近相等,使得总样本容量 至少为 时,即使总体不是正态分布,我们也能期望得到非常好的结果。如果总体分布高度偏斜或含有异常点,则需要较大的样本容量。只有当总体分布近似服从正态分布时才可以使用较小的样本容量。
5.3 匹配样本
分析匹配样本时,我们仅考虑数据的差值。运用 分布进行假设检验和区间估计。
假设检验的检验统计量为
其中, 为两样本之差的均值, 为样本标准差, 分布的自由度为 。
6. 两总体比例之差的假设检验
假设检验的 种形式如下:
当 时, 的标准误差为
的合并估计量
的检验统计量为
该检验统计量适用于 全都大于或者等于 的大样本情况。
7. 一个总体方差的假设检验
用 表示总体方差的假设值
- | 下侧检验 | 上侧检验 | 双侧检验 |
---|---|---|---|
假设 | |||
检验统计量 | |||
拒绝法则:值法 | 如果 值,则拒绝 | 如果 值,则拒绝 | 如果 值,则拒绝 |
拒绝法则:临界值法 | 如果 ,则拒绝 | 如果 ,则拒绝 | 如果 或者,则拒绝 |
其中, 表示 分布右侧的面积或概率为 时对应的 值, 分布的自由度为, 为样本容量,总体的分布为正态分布。
8. 两个总体方差的假设检验
- | 上侧检验 | 双侧检验 |
---|---|---|
假设 | ||
检验统计量 | ||
拒绝法则:值法 | 如果 值,则拒绝 | 如果 值,则拒绝 |
拒绝法则:临界值法 | 如果 ,则拒绝 | 如果 ,则拒绝 |
其中,总体 拥有较大的方差。检验统计量服从分子自由度为 和分布自由度为 的 分布, 表示 分布的上侧面积或者概率为 时的值。只有当两个总体至少近似正态分布的假定是合理的情况下才能使用 分布。
9. 三个或多个总体比率相等性的假设检验
针对分类型数据。
9.1 三个或多个总体比率相等性的 检验的一般步骤
对于 个总体,总体比率相等性的 检验的步骤如下:
- 建立原假设与备择假设:
- 从每一个总体中选择一个随机样本,并记录两行(每一个总体服从二项分布) 列的表中的观察频数 。
- 假设原假设为真,计算期望频数 。
- 如果每一个单元格的期望频数 都大于等于 ,计算检验统计量:
- 拒绝法则:
值法:如果 值,则拒绝
临界值法:如果 ,则拒绝
其中, 分布的自由度为 , 为检验的显著性水平;期望频数 的计算方法如下
注:总体比率相等性的 检验永远是一个上侧检验。
9.2 个总体比率的 成对比较方法
- 计算每一对总体的样本比率之差的绝对值:
- 计算每一对比较值相对应的临界值:
其中, 为显著性水平为 且自由度为 的 值; 和 为总体 和 的样本比率; 和 为总体 和 的样本容量。 - 如果任何成对样本比率之差的绝对值 超过其相对应的临界值 ,则在显著性水平 下,成对之差是显著的,于是得出相应的两个总体比率不同。
9.3 总体服从多项分布时的总体比率相等性检验
计算的期望频数 以及检验统计量 与总体为二项分布时没有区别,唯一不同的是原假设,原假设为对于所有总体回答变量的多项分布是相同的。 个总体中每一个都有 种回答,检验统计量 的自由度为 。
10. 独立性检验
两个分类变量独立性的 检验的一般步骤:
- 建立原假设与备择假设
- 从总体中选择一个随机样本,收集样本中每个个体对两个变量的数据。记录 行和 列的表中的观察频数 。
- 假定原假设为真,计算期望频数 。
- 如果期望频数 都大于等于 ,计算检验统计量:
- 拒绝法则:
值法:如果 值,则拒绝
临界值法:如果 ,则拒绝
其中, 分布的自由度为 , 为检验的显著性水平;期望频数 的计算方法如下
注: 检验也是一个单侧检验, 的拒绝域在自由度为 的 分布的上侧。
11. 拟合优度检验
11.1 多项概率分布
多项概率分布的拟合优度检验的一般步骤:
- 建立原假设和备择假设:
- 选择一个随机样本,并记录每一类别的观察频数 。
- 假定原假设为真,由此确定每一类别的期望频数 , 等于样本容量与各类概率的乘积。
- 如果每一类的期望频数都大于等于 ,计算检验统计量的数值
- 拒绝法则:
值法:如果 值,则拒绝
临界值法:如果 ,则拒绝
其中, 分布的自由度为 , 为检验的显著性水平.
注: 拟合优度检验总是单侧检验, 的拒绝域位于 分布的上侧。
11.2 正态分布
正态分布的拟合优度检验的一般步骤:
- 建立原假设和备择假设:
- 抽取一个随机样本,并且
a. 计算样本均值和样本标准差
b. 定义 个取值区间使得每个区间中的期望频数至少为 ,使用等概率区间是很好的方法。
c. 记录每个确定好的区间的数据值的观察频数 。 - 对于步骤 中确定的每个区间,计算发生次数的期望频数 ,即样本容量与正态随机变量落入每个区间的概率的乘积。
- 计算检验统计量的数值
- 拒绝法则:
值法:如果 值,则拒绝
临界值法:如果 ,则拒绝
其中, 为检验的显著性水平; 分布的自由度为 , 是有样本估计的分布参数的个数,在步骤 中,利用样本估计了均值和标准差,因此 ,自由度为 。
12. 符号检验
符号检验是假设检验中一种多用途的非参数方法,其利用 的二项分布作为抽样分布。它对总体分布没有假定的要求。
12.1 总体中位数假设检验
一般地,当总体非对称时,对于总体中心位置的度量,中位数优于平均数。因此,总体中位数的非参数符号检验通常是较合适的统计检验。
假设检验的步骤如下:
- 将每一个样本观测值与总体中位数的假设值进行比较,如果观测值大于假设值,用 号表示;如果观测值小于假设值,用 号表示;如果观测值恰好等于假设值,则将它从样本中剔除。
- 建立原假设和备择假设:
加号和减号的分配适合应用二项分布,令 表示加号的概率,如果总体中位数等于假设值,则 。因此,原假设和备择假设可以转化为关于二项概率 的假设:
- 计算 -值
如果样本容量 小于等于 ,可以利用二项分布概率表进行计算,记加号个数为 ,我们计算加号大于等于 的概率,即 ,由于是双侧检验,所以结果以 与显著性水平进行比较得出结论。
若假设检验是上侧检验,则原假设和备择假设可以表示为:
相应的 -值等于样本中加号个数大于等于 的二项概率。如果是下侧检验,则 -值等于样本中加号个数小于等于 的二项概率。
当样本容量超过 时,加号个数的抽样分布能近似为一个正态分布。对于这个近似,正态分布的均值和标准差为:
若是下侧检验,相应的 -值为
12.2 匹配样本的假设检验
对于匹配样本试验设计,与使用 分布对两个总体的均值之差进行推断的方法不同(其要求数量型数据,且确定二者之差服从正态分布),符号检验既能分析分类型数据,也能分析数量型数据,并且对二者之差的分布没有假定。
在市场调查中要求 个潜在的消费者比较两个品牌的产品是匹配样本的典型设计,我们不需要得到每个消费者对品牌偏好的数值测定,只要求每个消费者陈述对品牌的偏好,转换成加号和减号来表示。令 表示消费者总体中某种偏好所占的比例,然后利用上节所讲的符号检验即可。
匹配样本的符号检验也可以使用数量型数据,此时,正的差值记为加号,负的差值记为减号,差值为 将从样本中剔除。
13. 威尔科克森符号秩检验
威尔科克森符号秩检验(Wilcoxon signed-rank test)是分析匹配样本试验数据的非参数方法。检验使用数量型数据,但不要求假定配对观测值之差服从正态分布,只需要假定配对观测值之差具有对称分布(如果二者之差的总体分布是偏斜分布,则推荐使用 节介绍的匹配样本的符号检验),关注点是确定两个总体的中位数是否有差异。
用一个例子来说明具体方法:
某个制造企业正在尝试确定两种生产方法在完成任务时间上是存在差异,适用匹配样本设计,随机选择11个工人的2次完成任务时间,1次适用方法A,一次适用方法B。工人首次适用的方法是随机挑选的。数据如下表所示。这些数据是否表明两种方法在完成任务的时间上存在显著差异呢?
[图片上传失败...(image-7f9409-1570673857923)]
我们用威尔科克森符号秩检验对两种方法完成时间的中位数之差进行检验,假设如下:
计算符号秩:剔除差异为0的工人8;其中秩为差的绝对值的排序结果,如果有相同的绝对差,则取平均秩(如工人3和工人5)
[图片上传失败...(image-eae2c9-1570673857923)]
令 表示正的符号秩之和,将它作为检验的统计量。如果两个总体中位数相等,并且匹配数据对的个数为大于等于10时, 的抽样分布近似于如下的正态分布:
均值:
标准差:
于是,我们得到例子中的 的抽样分布为 , 的正态分布。由于检验统计量 在抽样分布的上侧,我们计算上侧的概率 (由于正的符号秩之和是离散型的,而正态分布是连续型的,需要考虑连续性校正因子,不过这里正好取值为49.5,所以保持不变)。所以 -值为 。由于 在抽样分布的上侧,我们得到方法 导致较长的时间。
威尔科克森符号秩检验同样也适用于上侧或者下侧检验。
一个总体中位数的威尔科克森符号秩检验基于假定总体分布对称。由于这个假定,总体中位数等于总体均值,所以,威尔科克森符号秩检验也可以用于对一个总体均值的检验。
14. 曼-惠特尼-威尔科克森检验
第 节介绍了利用两个独立样本进行两个总体均值之差的假设检验方法,其中一个样本来自总体 ,另一个来自总体 。参数检验要求数量型数据,且假定总体都服从正态分布。当总体标准差 和 未知时,用样本标准差 和 作为 和 的估计量,并且利用 分布对两个总体均值之差进行推断。
本节介绍的非参数方法曼-惠特尼-威尔科克森检验 (Mann-Whitney-Wilcoxon test, MWW) 既可以用于顺序型数据,也可以用于数量型数据,而且不需要假定总体服从正态分布。
主要步骤如下:
- 建立原假设和备择假设:
- 对两个样本混合后的数据由低到高进行排序,得到对应的秩(如果两个数据相同,则取平均秩)。
- 求每个样本的秩和。取样本 的秩和为检验统计量 。
当两个样本容量都大于等于 时, 的抽样分布可以用正态分布近似:
均值:
标准差:
- 根据 计算对应的 -值,得出结论。
检验的一些应用使其适合于假定两个总体具有相同的形态,即使总体不同,也仅仅是分布位置上的移动。如果两个总体具有相同的形态,假设检验可以根据两个总体中位数之差来陈述。其双侧检验的假设形式如下:
15. 克鲁斯卡尔-沃利斯检验
当我们使用数量型数据并假定总体服从标准差相等的正态分布时,以每个总体的独立随机样本为依据,我们用 分布来检验各总体之间的差异(方差分析)。
非参数的克鲁斯卡尔-沃利斯检验 ( Kruskal-Wallis test ) 的依据是来自 个总体的 个独立随机样本的分析。这个方法既可以使用顺序型数据也可以使用数量型数据,并且不需要假定总体服从正态分布。
主要步骤如下:
- 建立原假设和备择假设:
- 对混合后的样本数据由低到高进行排序,得到对应的秩(如果两个数据相同,则取平均秩)。
- 求每个样本的秩和。
- 计算检验统计量:
其中, 代表总体的个数; 代表样本 中观测值的个数;,代表所有样本的观测值总数; 为样本 的秩和。 - 拒绝法则说明
在各个总体相同的原假设下,当 个总体的每个样本的容量都大于等于 时, 的抽样分布可以近似服从自由度为 的 分布。克鲁斯卡尔-沃利斯检验是一个上侧检验。
克鲁斯卡尔-沃利斯检验的一些应用使其适合于假定多个总体具有相同的形态,即使总体不同,也仅仅是分布位置上的移动。如果假定 个总体具有相同的形态,假设检验可以根据中位数来陈述。其假设形式如下: