本文来自《商务与经济统计》第18章的个人笔记。
什么是非参数方法
参数方法:即对数据的参数有一些先验经验,比如数据的分布、均值与方差等,常见的检验一般都会要求正态分布。非参数方法不要求提供这些参数。
非参数方法的区别之处
- 无需假定总体概率分布形式
- 允许对分类、排序类数据进行推断
- 非参数检验一般是针对中位数的
符号检验
用于总体中位数的检验、两个匹配总体之差的检验(方法与第一个相同)。
总体中位数的检验
:总体中位数=x
步骤:
- 新增一列,如果数据大于x,则设置为+,小于设置为-,等于就剔除掉
- 统计正负号的个数
- 如果零假设成立,则总体中应该各有50%的正负号
- 问题转化为:p=0.5,p表示加号的概率,这是一个二项分布,当样本数大于20时,近似正态分布
- 对于二项分布,计算加号数统计的加号数的概率(如果统计的加号大于一半)或加号数统计的加号数的概率(如果统计的加号小于一半),此概率即为p值。对于正态分布,由于均值为0.5n,标准差为,同理求p值。对于双侧检验,结果乘以2。这一步的原理是对统计加号数求远离一半加号方向的概率,表示反常的情况。
- 求p值的时候注意使用连续性修正,比如加号个数为8个,求下侧面积,则应该用(7.5,8.5)区间的概率来求加号为8个的概率。
威尔科克森符号秩检验
用于分析匹配样本数据,同样检验中位数。使用数据量数据,假定配对观测值之差具有对称分布(即2个总体的形态相同,比正态分布宽松)。 由于假定是对称分布,中位数检验也是均值检验。
:配对总体的中位数之差为0
步骤:
- 新增2列,一列为总体A-总体B的差。一列为差的绝对值。
- 根据差的绝对值排序。首先剔除差为0的样本。对绝对值从小到大排序(序号从1开始),如果差值相同,则用平均数代替(比如第3,4个差值相同,则序号都为3.5,序号也称为秩)
- 取差值为正(新增的第一列)的样本,求其秩的总和,此即为符号秩检验的统计量。
- 如果2总体中位数相等且匹配数据对个数10,则的抽样分布近似正态分布:均值=,标准差=
- 下面就转到正常的参数统计方法:求统计量在给定正态分布下远离零假设条件的概率,即为p值(双侧检验需要乘以2)。同样注意连续性修正(比如统计量为11.5,分布的均值为10,则应该求t11的概率,11.5用区间11-12表示)
MWW检验(曼-惠特尼-威尔科克森检验)
检验2个独立样本的2总体差异。 当2个总体具有相同的形态时,MWW检验变为2个总体的中位数之差的检验。
:2个总体相同
步骤:
- 合并2个样本,排序
- 如果2个总体相同,总体A的秩和应该接近2个极端值的平均值(比如样本1和样本2的样本数为4,5,则样本1最小秩和为1+2+3+4=10,最大秩和为6+7+8+9=30,平均值为20)
- 其中一个总体的秩和W作为统计量,当2个样本数都7时,W近似服从正态分布:均值=,标准差=
- 下面也转为常规参数方法,略。
克鲁斯卡尔-沃利斯检验
检验多个总体。可以是顺序型或数量型数据。总是一个上侧检验
:所有总体相同。
步骤:
- 合并多个样本,排序,计算各样本的秩和
- 统计量H=,
- 在零假设下,H的抽样分布近似服从自由度为k-1的卡方分布(每个样本容量5)
秩相关系数
皮尔逊相关系数是线性关系的度量。对于排序数据,使用秩相关系数。
,
在总体的秩相关系数为0的零假设下,的抽样分布近似正态分布:均值=0,标准差=
构造统计量z=,z服从标准正态分布,利用z统计量计算p值,即可进行秩相关系数显著性检验。