简聊卡方统计

  1. 简介
    卡方检验是一种用途非常广泛的假设检验方法,在统计推断中使用非常多,可以检测多个分类变量之间的相关性是否显著。

  2. 基本原理
    卡方检验就是统计样本的实际观测值和理论推断值之间的偏离程度,如果chi-square值越大,二者偏差程度越大;反之,二者偏差越小。若chi-square为0,表明理论和实际值完全符合,完全相关。

  3. 原型

1) 提出假设
H0: 总体X的分布律为P{X=xi}=pi,i=1,2,...

2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取:
A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),

其中:
i. a0可取-∞,ak可取+∞,区间的划分视具体情况而定
ii. 每个小区间所含的样本值个数不小于5
iii. 区间个数k适中

3)把落入第i个小区间的Ai的样本值的个数记作fi, 所有组频数之和f1+f2+...+fk等于样本容量n。

4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i 个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。

5)当H0为真时,n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近,当H0不真时,则fi/n与pi相差很大。

6)基于上面想法,引入下面统计量:


image.png

,便得到了在H0假设成立的情况下服从自由度为k-1的卡方分布。

  1. 四表格法
    四表格法是一种检验方法,主要检测两个分类变量X和Y,他们的值域分别为{x1, x2}和{y1, y2},其样本频数列联表为:


    image.png

按照上面原型:
1) 提出假设H0:X与Y有关系
2)计算chi-square值, chi-square值越大说明X与Y偏离程度越大,X与Y就相关性就越小,也就是越不相关。

可以查阅下表,来确定X与Y是否有关系的可信度:

image.png

在上表中:
i. F代表自由度, 在表格中自由度v=(行数-1)(列数-1) ,所以四表格中,行数=列数=2,所以四表格中自由度v=1

ii. 显著水平α为第一行绿色部分。代表的二者的相关程度
iii. 从第二行,第二列起,每个值代表计算出来的chi-square值。

举例当F=1时, P(chi > 6.64) = 0.01 , 表示当chi方值>6.64的时候,相关的概率为0.01. 也就是相关的可信度是0.01。 不相关的可信度是0.99

  1. 举例


    image.png

其中,每个格子的数是由该公式计算的:55=100*110/200。

image.png

而 P(chi >10.828) = 0.001, 所以P(chi >129.3) < 0.001

原假设是二者没有关系,但是现在落到拒绝域了, 也就是二者没关系的概率小于0.001.有关系的概率大于0.999.

  1. 一张图直接理解


    image.png

一般我们会说显著水平α,然后给出假设:
H0: 假设一定是符合接受域的假设。如上面,我们假设化妆和性别没有关系,也就是按照此假设认为计算出来的chi2值会很小,也就是接受域里的。
(支持这个假设成立的条件是, 实际的概率要大于α,也及时实际chi-square要落在左侧)

接下来就是,推理这个假设是否成立:
1) 显著水平α给定后,在自由度固定的条件下,其chi-square值k是固定的,即

   P(chi >k) =α, 通过查表可得,这是理论值。 

2) 计算实际chi-square值
当我们算出的实际chi-square值 > k时,就落在右边区域,即实际相关的概率要小于α,也就是也就是落在了拒绝H0区域。
反之, 当我们计算出来的chi-square值<k时, 就落在左边区域, 及实际相关概率要大于α,也就是落在了不拒绝H0区域。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342