简介
卡方检验是一种用途非常广泛的假设检验方法,在统计推断中使用非常多,可以检测多个分类变量之间的相关性是否显著。基本原理
卡方检验就是统计样本的实际观测值和理论推断值之间的偏离程度,如果chi-square值越大,二者偏差程度越大;反之,二者偏差越小。若chi-square为0,表明理论和实际值完全符合,完全相关。原型
1) 提出假设
H0: 总体X的分布律为P{X=xi}=pi,i=1,2,...
2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取:
A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),
其中:
i. a0可取-∞,ak可取+∞,区间的划分视具体情况而定
ii. 每个小区间所含的样本值个数不小于5
iii. 区间个数k适中
3)把落入第i个小区间的Ai的样本值的个数记作fi, 所有组频数之和f1+f2+...+fk等于样本容量n。
4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i 个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。
5)当H0为真时,n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近,当H0不真时,则fi/n与pi相差很大。
6)基于上面想法,引入下面统计量:
,便得到了在H0假设成立的情况下服从自由度为k-1的卡方分布。
-
四表格法
四表格法是一种检验方法,主要检测两个分类变量X和Y,他们的值域分别为{x1, x2}和{y1, y2},其样本频数列联表为:
按照上面原型:
1) 提出假设H0:X与Y有关系
2)计算chi-square值, chi-square值越大说明X与Y偏离程度越大,X与Y就相关性就越小,也就是越不相关。
可以查阅下表,来确定X与Y是否有关系的可信度:
在上表中:
i. F代表自由度, 在表格中自由度v=(行数-1)(列数-1) ,所以四表格中,行数=列数=2,所以四表格中自由度v=1
ii. 显著水平α为第一行绿色部分。代表的二者的相关程度
iii. 从第二行,第二列起,每个值代表计算出来的chi-square值。
举例当F=1时, P(chi > 6.64) = 0.01 , 表示当chi方值>6.64的时候,相关的概率为0.01. 也就是相关的可信度是0.01。 不相关的可信度是0.99
-
举例
其中,每个格子的数是由该公式计算的:55=100*110/200。
而 P(chi >10.828) = 0.001, 所以P(chi >129.3) < 0.001
原假设是二者没有关系,但是现在落到拒绝域了, 也就是二者没关系的概率小于0.001.有关系的概率大于0.999.
-
一张图直接理解
一般我们会说显著水平α,然后给出假设:
H0: 假设一定是符合接受域的假设。如上面,我们假设化妆和性别没有关系,也就是按照此假设认为计算出来的chi2值会很小,也就是接受域里的。
(支持这个假设成立的条件是, 实际的概率要大于α,也及时实际chi-square要落在左侧)
接下来就是,推理这个假设是否成立:
1) 显著水平α给定后,在自由度固定的条件下,其chi-square值k是固定的,即
P(chi >k) =α, 通过查表可得,这是理论值。
2) 计算实际chi-square值
当我们算出的实际chi-square值 > k时,就落在右边区域,即实际相关的概率要小于α,也就是也就是落在了拒绝H0区域。
反之, 当我们计算出来的chi-square值<k时, 就落在左边区域, 及实际相关概率要大于α,也就是落在了不拒绝H0区域。