非参数方法

本文来自《商务与经济统计》第18章的个人笔记。

什么是非参数方法

参数方法:即对数据的参数有一些先验经验,比如数据的分布、均值与方差等,常见的检验一般都会要求正态分布。非参数方法不要求提供这些参数。

非参数方法的区别之处

  1. 无需假定总体概率分布形式
  2. 允许对分类、排序类数据进行推断
  3. 非参数检验一般是针对中位数

符号检验

用于总体中位数的检验、两个匹配总体之差的检验(方法与第一个相同)。

总体中位数的检验

H_0:总体中位数=x
步骤:

  1. 新增一列,如果数据大于x,则设置为+,小于设置为-,等于就剔除掉
  2. 统计正负号的个数
  3. 如果零假设成立,则总体中应该各有50%的正负号
  4. 问题转化为H_0:p=0.5,p表示加号的概率,这是一个二项分布,当样本数大于20时,近似正态分布
  5. 对于二项分布,计算加号数\ge统计的加号数的概率(如果统计的加号大于一半)或加号数\leq统计的加号数的概率(如果统计的加号小于一半),此概率即为p值。对于正态分布,由于均值为0.5n,标准差为\sqrt {0.25n},同理求p值。对于双侧检验,结果乘以2。这一步的原理是对统计加号数求远离一半加号方向的概率,表示反常的情况。
  6. 求p值的时候注意使用连续性修正,比如加号个数为8个,求下侧面积,则应该用(7.5,8.5)区间的概率来求加号为8个的概率。

威尔科克森符号秩检验

用于分析匹配样本数据,同样检验中位数。使用数据量数据,假定配对观测值之差具有对称分布(即2个总体的形态相同,比正态分布宽松)。 由于假定是对称分布,中位数检验也是均值检验。
H_0:配对总体的中位数之差为0
步骤:

  1. 新增2列,一列为总体A-总体B的差。一列为差的绝对值。
  2. 根据差的绝对值排序。首先剔除差为0的样本。对绝对值从小到大排序(序号从1开始),如果差值相同,则用平均数代替(比如第3,4个差值相同,则序号都为3.5,序号也称为秩)
  3. 取差值为正(新增的第一列)的样本,求其秩的总和,此即为符号秩检验的统计量T^+
  4. 如果2总体中位数相等且匹配数据对个数\ge10,则T^+的抽样分布近似正态分布:均值=n(n+1)/4,标准差=\sqrt{n(n+1)(2n+1)/24}
  5. 下面就转到正常的参数统计方法:求统计量T^+在给定正态分布下远离零假设条件的概率,即为p值(双侧检验需要乘以2)。同样注意连续性修正(比如统计量为11.5,分布的均值为10,则应该求t\ge11的概率,11.5用区间11-12表示)

MWW检验(曼-惠特尼-威尔科克森检验)

检验2个独立样本的2总体差异。 当2个总体具有相同的形态时,MWW检验变为2个总体的中位数之差的检验。
H_0:2个总体相同
步骤:

  1. 合并2个样本,排序
  2. 如果2个总体相同,总体A的秩和应该接近2个极端值的平均值(比如样本1和样本2的样本数为4,5,则样本1最小秩和为1+2+3+4=10,最大秩和为6+7+8+9=30,平均值为20)
  3. 其中一个总体的秩和W作为统计量,当2个样本数都\ge7时,W近似服从正态分布:均值=n_1(n_1+n_2+1)/2,标准差=\sqrt{n_1 n_2 (n_1+n_2+1)/12}
  4. 下面也转为常规参数方法,略。

克鲁斯卡尔-沃利斯检验

检验多个总体。可以是顺序型或数量型数据。总是一个上侧检验
H_0:所有总体相同。
步骤:

  1. 合并多个样本,排序,计算各样本的秩和
  2. 统计量H=[\frac {12}{n_T (n_T+1)}\sum_{i=1}^k \frac{R_i^2}{n_i}]-3(n_T+1),其中k为总体个数,n_i代表样本i的观测值数目,n_T为所有样本的观测值数目,R_i为样本i的秩和
  3. 在零假设下,H的抽样分布近似服从自由度为k-1的卡方分布(每个样本容量\ge5)

秩相关系数

皮尔逊相关系数是线性关系的度量。对于排序数据,使用秩相关系数。
r_s=1-\frac{6\sum_{i=1}^n d_i^2}{n(n^2+1)}其中n为样本值观测值个数,x_i为第一个变量的第i观测值的秩,y_i为第二个变量的第i观测值的秩,d_i=x_i-y_i
在总体的秩相关系数为0的零假设下,r_s的抽样分布近似正态分布:均值u_{r_s}=0,标准差\sigma_{r_s}=\sqrt{1/(n-1)},n\ge 10
构造统计量z=\frac{r_s-u_{r_s}}{\sigma_{r_s}},z服从标准正态分布,利用z统计量计算p值,即可进行秩相关系数显著性检验

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343