假设检验:非参数检验(卡方检验),参数检验(F检验,T检验,Z检验),方差分析(ANOVA),协方差分析(ANCOVA)

  • 首先讲置信度与置信区间:
    放在一起理解就行:即在置信度alpha的概率下,我们的参数落在置信区间beta内。
    例如:在置信度95%的情况下,扔均匀硬币100次正面的次数在40~60之间。
    这个例子中,我们知道扔硬币这个实验符合二项分布,我们通过其分布就能算出在95%的概率内,值域的分布。

** 非参数检验(卡方检验),参数检验(F检验,T检验,Z检验),方差分析(ANOVA)

非参数检验与参数检验:

** 主要差异在于,非参数检验不需要假定总体分布形式,直接对数据的分布进行检验。由于不涉及总体分布的参数,故名「非参数」检验。比如,卡方检验。
而参数检验一般需要正太性,方差齐次等假设,并已知总体均值,方差等值,或者从样本估计**

卡方校验:(要求independent variables是离散变量)

主要检验自变量与因变量的相关程度。(做变量区间划分,然后频次统计,跟相关性系数有所差异【Pearson系数为研究连续值变量之间的线性相关性】)
前提:  卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者间的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。

卡方统计量X^2=\frac {(Observation - Expected)^2}{Expected}

其中Observation为实际值,Expected为理论值。(根据Observation,通过统计概率直接计算出Expected理论值)
X^2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:

  • 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
  • 差异程度与理论值的相对大小
  • 卡方检验是一种非参检验
    https://segmentfault.com/a/1190000003719712
  • 引申1:文本分类,CHI,TF*IDF的差异。(卡方校验用于判断词在分类上是否存在区分度,TFIDF主要是判断词在某文档上是否有区分度,因为卡方有”低频词缺陷”, 不能表征词在文档内的重要程度,因此,tf-idf是个不错的补充。)
    https://www.zhihu.com/question/44596828
  • 引申2:皮尔逊系数,用以检验两个随机变量的线性相关性。(多变量,协方差矩阵)

F检验:(方差齐性检验)

检测两个及以上的样本总体方差差异是否显著的检验。(对正太性敏感,需要前提为正太分布)
*F检验是一种参数检验。

  • 基础
    H0假设:两个样本的variance没有差异(齐次)\sigma_1=\sigma_2
    H1对立假设:两个样本的variance有差异 \sigma_1>\sigma_2
    统计量F=\frac {\sigma_1}{\sigma_2}服从d_1=n_1-1,d_2=n_2-1的F分布

F-Test in ANOVA(方差分析):

分析多组均值是否存在显著差异【注意,在ANOVA中,Ftest也是用来检验均值的差异,在group=2时,两者存在等价关系F=t^2[4]】
One-way Anova用于one continuous respond,以及一个多取值的dependent variables。
Two-way Anova用于one continuous respond,以及多个多取值的dependent variables。
https://zhuanlan.zhihu.com/p/57896471
前提:方差齐次,正太敏感
H0假设:多个样本均值没有差异(全部相等)
H1假设:任意样本有差异

ANOVA也使用F分布(与F检验相同)

核心思路:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。假设不同组样本的数据的差异主要来自两个方面:1、实验因素差异。2、随机误差。这两个偏差值的比值构成了一个分布,通过我们对这个分布的了解来确定其显著性。
intuition:
(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2) [随机误差],如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内[自由度]dfw。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一[总体],MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。
MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的[总体]

  • ANOVA与Linear Model在使用相同的encoding时,是等价的。[1]

  • 形式化解释:
    F=\frac {explained \ variance }{unexplained \ variance }
    or
    F=\frac {between \ group \ variability }{within \ group \ variability }
    之所以组间方差为explained variance,即“分组变量”解释了差异。而组内方差并没有被“分组变量”解释,所以是unexplained。
    F-test is a ratio of two Chi-squares:两个卡方统计量的比值。


    分子计算:组间方差:
    \sum_{i}^K \frac {n_i(\overline Y_i - \overline Y)^2} {K-1}
    分母计算:组内方差:
    \sum_{i}^K\sum_{j}^{n_i} \frac {(Y_{ij}-\overline Y_i)^2}{N-K}
    \overline Y_i是第i个group的均值,\overline Y为总样本均值,K为组数,n_ii组的样本量


    最后计算出F值之后,查临界值表(这个统计量服从d_1=K-1,d_2=N-K的F分布,F值越大,说明组间方差比组内方差大的越多。则说明组间均值存在差异。

T检验:

主要用于小样本(样本容量小于30)的两个平均值差异程度的检验方法(主要适用与总体方差未知的情况:即要用小样本的方差预估总体方差)
*T检验也是一种参数检验。(对方差齐性敏感,需要先检验方差齐性【F检验】)
对于与总体配对的T检验,要求方差齐次,只有方差齐了,才能反应其均值的差异。【不齐次有特殊处理方法】
适用于已知总体均值(单样本配对时需要总体均值,双样本不需要),样本均值,样本方差(即样本少总体方差未知),且大致来自于正太分布(一般除非明显的长尾多峰等分布以外,都大致可以检验)

  • 基础:
    H0假设 :uu_0没有差异,u_0其实就是一个comparison value,u=u_0
    H1假设(单边):样本A均值大于B(或者小于)u>u_0
    H1假设(双边):两个样本均值有差异u>u_0 or u<u_0
    使用单边双边检验的区别:看你拒绝假设在两边,or一边
    均值检验中统计量T=\frac {u - u_0}{\sigma}服从d=n-1的T分布。n为样本量
    泛化形式T=\frac {E(x)-E(x_0)}{S(x)},其中E(x_0)为H0假设的对比值(comparison value),S(x)为对应变量x的标准差(一般总体参数未知)所以都是用样本标准差S,当我们对比的是均值时,均值的标准差用\frac {S(x)} {\sqrt n}来近似

  • 单总体样本:
    H0:样本均值与总体均值相同
    t=\frac{\overline X - u}{ \frac {s_x}{\sqrt n}}
    \overline X为样本均值,u为总体均值,s_x为样本标准差,\frac {s_x} {\sqrt{n}}为样本均值的标准差

  • 双总体配对样本:(形式与上述一致)
    t=\frac{\overline X - u_0}{ \frac {s}{\sqrt n}}
    u_0为0假设下差异值的均值。s为配对样本差值的标准差,\frac s {\sqrt n}为配对样本差值的均值的标准差

  • 双总体非配对样本:
    t=\frac {\overline X_1 - \overline X_2} {\sqrt {\frac {(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n2_2 - 2} (\frac 1 n_1 + \frac 1 n_2)}}
    注:两个独立样本的差的variance是:
    var(\overline X_1-\overline X_2)=\frac {S_1^2} n_1 + \frac {S_2^2} n_2
    注:实际例子见[14]

这个公式是一个比值。一个普通的比喻是,t值为信噪比。
配对t检验除了自由度有所差异,其实本身也差不多。
上述公式本质分子都是均值,分母都是方差(均值的方差)。所以和z score本质也一样。

1)根据待检验的实验,计算出t值
2)根据t值查表获取p值,借此判断是否有统计学上的差异(不过通常做法是根据想要的p值【比如0.05】来查表获得临界的t值,再比较t值的大小来判断是否达到一定的显著性,t>临界t值,则效果显著)PS:p值代表原假设为真时【比如abtest两组无差异】,此事件发生的概率。【如果很小的话,则证明不太可能发生这样的情况,应该拒绝原假设,当然,拒绝也是有错误的可能性的,错误的概率也为p值,即我们认为abtest有显著差异其误判的概率是p】

Z检验:(统计量的计算形式与t检验一致)

统计量z=\frac {u-u_0} {\frac {S_0} {\sqrt n} }服从N(0,1)标准正太分布,查表即可知起临界值。
t分布相较于标准正太分布来说,n越小的时候越平坦,intuition上来说,即是样本越小,需要拒绝H0的临界值越大(样本小,则需要数值上越明显的差异)
Z检验核心思路与t检验类似。由于前提已知整体方差(基本要求样本数量大于30才能用样本方差代替整体方差,实际上样本量越大偏差越小),所以只适用于大样本量的数据。
实际上与t检验的区别就在于,t检验用的t分布查临界值(针对小样本),Z检验直接查标准正太分布表即可

T检验与F检验的差异[2]:

1、本质上T检验用以检验均值差异,F检验方差差异(譬如用于回归模型拟合程度检验:回归模型Fscore[3]),但是在方差分析ANOVA中,对F-test的应用也是检验均值的差异。[4]
2、T检验用于样本量小于30的情况(大于30,可视为population参数已知,用标准正太分布即可,z检验),F检验可以检验大规模数据
3、F statistics可以视为T statistic的泛化[5]

类似用途1:Ttest and Ftest for Regressor

检验线性模型的有效性:
1、对于Ttest是Linear Model的系数是否=0(H0)
2、对于Ftest是模型explained variance是否显著大于unexplained variance
差异:t-test一次只能test一个参数,而F test可以直接评估多个参数[8]。
T=\frac {E(/beta)} {s.e.(\beta)},分母为\beta的标准差,在OLS中可以用s.e.(\beta)=\frac {\sqrt \frac {\sum (y_i-\hat y_i)^2}{n-2}}{\sqrt {\sum (x_i-\overline x)^2}}来估计参数的标准差。
F=\frac {\frac {SSR-SSU}{p_r-p_u}}{\frac {SSU}{n-p_u}}SSR为sum of squares Restricted即限制了factors(independent variables)的模型,SSU为sum of squares Unrestricted即未限制factors的模型。p_r,p_u分别为他们参数的数量。

类似用途2: T-test and Anova(F-test)

在最简单的形式中,Anova(F-test)可以用以比较量2个或多个变量的均值,以此 generalize T-test。当在比较2组的时候,他们是等价的F=t^2
我们拿个简单的例子,比较X_1X_2在均值上是否存在差异(均值差异来自变量自身的variance还是组间差别):
T=\frac {\overline x_1 - \overline x_2}{\sqrt \frac {S_1^2+S_2^2}{n}}
F=\frac {n \frac {(\overline x_1 - \overline x_2)^2} {2}} {\frac {S_1^2+S_2^2}{2}}=\frac {(\overline x_1 - \overline x_2)^2}{\frac {S_1^2+S_2^2}{n}}=T^2
PS:这里为了做简单的推导,所以将样本量都设为n,其实将n_1,n_2带入也是等价的。

ANOVA与OLS-LM的关系。

ANOVA其实是 OLS-Linear Regression一种特例(ANOVA只能对离散的factor做分析),所有能从ANOVA作出的推断,都能直接从OLS中得出[9],他们假设也是一致的,categorical变量解释不同factor之间mean的variance(组间variance),模型不能解释的就是residual(组内variance)。他们俩的和等于所有respond对总样本均值的variance
同时ANCOVA也经常用于[7]

ANCOVA(协方差分析)与ANOVA的差别

ANCOVA=ANOVA+Linear Regression。剔除Covariates带来的影响(erase the variable effects),关注treatment本身
ANCOVA与Anova的区别在于,Based on LM,加入了一个continuous covariates,其他一样[6]

Multi-factor(factorial) Analysis of Variance。

注:two-way anova也是factorial anova。
譬如我们要分析多个变量(independent variables),对dependent variable的影响程度。此时可以使用Multi-factor Analysis of Variance[10],或者有种思路是,看哪个factor解释的variance更多?用Ftest来解决:即A factor解释的variance是否显著大于B factor解释的variance。
跳出这个框架,或者对自变量标准化的回归分析[11],这种方案可以针对任何连续与离散变量。

Multivariate Analysis of Variance(MANOVA)

不是FANOVA[12]

关于p value

一般在做假设检验的时候,我们可以通过如下步骤:
1、设定alpha
2、计算统计量t
3、根据alpha查统计量阈值来确定拒绝还是接受(这里是比较统计量t即可,t>t阈)


第二种方法,直接计算p value(对于不同假设分布有不同计算pvalue的公式)
p value的含义是:

在H0成立的情况下,Data产生的概率

非常好理解,p值为在H0假设下,最终会产生得到当前数据的概率。
如果p < alpha(比如0.05)则在H0的假设下,Data产生概率非常小(小于显著水平alpha),则应该拒绝H0
(注:显著性水平alpha与p值pval不是一回事,不要搞混。alpha为我们设定的显著性水平,pval为计算出来概率。alpha是我们主观去设定的值,pvalue为伴随数据客观得到的值)

关于第一类,第二类错误

第一类错误:H0为真,但是拒绝了H0(弃真)。概率为alpha(常用的显著性水平,即是达到5%概率犯第一类错误的水平【即很大概率不会错误地拒绝H0】)
一般我们计算时,p值就是真实情况下,犯第一类错误的概率。

第二类错误:H0为假,但是接受了H0(取伪)。当我们设定了alpha后,如果显著性水平没有达到alpha的值,那么我们会接受假设H0。在这种情况下,仍然有一定概率H0为假。这个概率为Beta。
1-\beta即为statistical power

通常,alpha设置的比较大,则beta也会比较大,如下图:


在统计量为蓝色竖线的时候,根据H0假设的分布,可以得到alpha,同时beta由H1的分布计算得来,但是通常我们不知道H1的真实分布,所以也无法精确计算beta

实践中,由于beta无法精确计算,但是我们还是想要降低第二类错误的概率,所以要做有如下的认知,beta的大小取决于两个因素:
1、H1假设与H0的距离,距离越大,beta越小。
2、alpha的值。alpha越大,beta越小。(更倾向于拒绝H0,一类错误概率增加,则二类错误率减少)。
通常在固定alpha,H1假设的情况下,要缩小beta需要增加样本量。

关于置信度,置信区间

置信水平(置信度)=1-显著性水平(alpha)
置信区间:U,V。指在一定的置信水平下(1-alpha),被观测参数的真实值会落在区间(U,V)之内。
PS:什么是统计量,统计量是样本的函数,且不依赖于任何未知的参数。比如样本均值就是个常用的统计量,mean(sample),它只依赖于所有样本的值。
PSS:一般来说,主要用于做区间估计。

Refer
[1]:https://stats.stackexchange.com/questions/175246/why-is-anova-equivalent-to-linear-regression#:~:text=ANOVA%20and%20linear%20regression%20are%20equivalent%20when%20the%20two%20models,and%20use%20an%20identical%20encoding.&text=Somewhat%20aphoristically%20one%20can%20describe,simple%20regression%20with%20categorical%20variables.

[2]https://askanydifference.com/difference-between-t-test-and-f-test/

[3]F-score:https://en.wikipedia.org/wiki/Lack-of-fit_sum_of_squares

[4]:ANOVA中F检验也是compare均值,当Anova在只有两组的情况下(对应Ftest中的2个group,Ttest中的配对),F检验与T检验等价:F=t^2。(F检验本身是比较两个方差,但是Anova中的F检验是比较between group variance,这个值其实是分组的均值的方差,所以本质也是在对比均值,即:组间均值的差异,是否来自于组内方差?)
if you have only two groups/factor levels, the F-test statistic is the square of the t-test statistic, and the F-test is equivalent to the two-sided t-test
https://stats.stackexchange.com/questions/411665/relation-between-f-test-and-t-test-are-they-mutually-exclusive
也可以见上述简化版的等价推导。##T-test and Anova1(F-test)

[5] F statistics 是T statistics的generalization,同理,chi-square statistics也是normal statistics的泛化

[6]:http://www.statsmakemecry.com/smmctheblog/stats-soup-anova-ancova-manova-mancova#:~:text=One%2Dway%20ANOVA%20has%20one,of%20Education%20and%20Zodiac%20Sign)
[7]:http://www.differencebetween.net/science/mathematics-statistics/difference-between-ancova-and-regression/#:~:text=ANCOVA%20is%20a%20model%20that,linear%20to%20the%20independent%20variable.&text=Regression%20is%20the%20relationship%20of,one%20or%20more%20independent%20variables.

[8]t-tests that can assess only one regression coefficient at a time, the F-test can assess multiple coefficients simultaneously

[9]https://snaveenmathew.medium.com/simple-linear-regression-and-anova-c93ae51bdecb
以及
https://stats.stackexchange.com/questions/190984/anova-vs-multiple-linear-regression-why-is-anova-so-commonly-used-in-experiment#:~:text=ANOVA%20and%20OLS%20regression%20are,drawing%20from%20the%20test%20statistic).&text=ANOVA%20cannot%20be%20used%20for,as%20the%20more%20limited%20technique.

[10]https://www.itl.nist.gov/div898/handbook/eda/section3/eda355.htm

[11]:回归分析中,对 variables 做standardization,https://www.researchgate.net/post/In-a-linear-regression-model-how-to-find-the-level-of-influence-of-each-independent-variables-on-the-dependent-variable

[12]https://stats.stackexchange.com/questions/153390/multifactorial-analysis-of-variance-with-repeated-measurements-literature

[13]McNemar's test. 不同于 ttest面向连续变量,这个是面向二分变量的。https://en.wikipedia.org/wiki/McNemar%27s_test

[14] 在特征检验中使用,即某特征划分的样本在指标上是否有差异(均值):https://blog.csdn.net/weixin_39753674/article/details/110534435

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容