- 首先讲置信度与置信区间:
放在一起理解就行:即在置信度alpha的概率下,我们的参数落在置信区间beta内。
例如:在置信度95%的情况下,扔均匀硬币100次正面的次数在40~60之间。
这个例子中,我们知道扔硬币这个实验符合二项分布,我们通过其分布就能算出在95%的概率内,值域的分布。
** 非参数检验(卡方检验),参数检验(F检验,T检验,Z检验),方差分析(ANOVA)
非参数检验与参数检验:
** 主要差异在于,非参数检验不需要假定总体分布形式,直接对数据的分布进行检验。由于不涉及总体分布的参数,故名「非参数」检验。比如,卡方检验。
而参数检验一般需要正太性,方差齐次等假设,并已知总体均值,方差等值,或者从样本估计**
卡方校验:(要求independent variables是离散变量)
主要检验自变量与因变量的相关程度。(做变量区间划分,然后频次统计,跟相关性系数有所差异【Pearson系数为研究连续值变量之间的线性相关性】)
前提: 卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者间的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。
卡方统计量
其中Observation为实际值,Expected为理论值。(根据Observation,通过统计概率直接计算出Expected理论值)
用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
- 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
- 差异程度与理论值的相对大小
- 卡方检验是一种非参检验
https://segmentfault.com/a/1190000003719712 - 引申1:文本分类,CHI,TF*IDF的差异。(卡方校验用于判断词在分类上是否存在区分度,TFIDF主要是判断词在某文档上是否有区分度,因为卡方有”低频词缺陷”, 不能表征词在文档内的重要程度,因此,tf-idf是个不错的补充。)
https://www.zhihu.com/question/44596828 - 引申2:皮尔逊系数,用以检验两个随机变量的线性相关性。(多变量,协方差矩阵)
F检验:(方差齐性检验)
检测两个及以上的样本总体方差差异是否显著的检验。(对正太性敏感,需要前提为正太分布)
*F检验是一种参数检验。
- 基础
H0假设:两个样本的variance没有差异(齐次)
H1对立假设:两个样本的variance有差异
统计量服从的F分布
F-Test in ANOVA(方差分析):
分析多组均值是否存在显著差异【注意,在ANOVA中,Ftest也是用来检验均值的差异,在group=2时,两者存在等价关系[4]】
One-way Anova用于one continuous respond,以及一个多取值的dependent variables。
Two-way Anova用于one continuous respond,以及多个多取值的dependent variables。
https://zhuanlan.zhihu.com/p/57896471
前提:方差齐次,正太敏感
H0假设:多个样本均值没有差异(全部相等)
H1假设:任意样本有差异
ANOVA也使用F分布(与F检验相同)
核心思路:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。假设不同组样本的数据的差异主要来自两个方面:1、实验因素差异。2、随机误差。这两个偏差值的比值构成了一个分布,通过我们对这个分布的了解来确定其显著性。
intuition:
(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2) [随机误差],如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内[自由度]dfw。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一[总体],MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。
MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的[总体]
ANOVA与Linear Model在使用相同的encoding时,是等价的。[1]
形式化解释:
or
之所以组间方差为explained variance,即“分组变量”解释了差异。而组内方差并没有被“分组变量”解释,所以是unexplained。
F-test is a ratio of two Chi-squares:两个卡方统计量的比值。
分子计算:组间方差:
分母计算:组内方差:
是第个group的均值,为总样本均值,为组数,为组的样本量
最后计算出F值之后,查临界值表(这个统计量服从,的F分布,F值越大,说明组间方差比组内方差大的越多。则说明组间均值存在差异。
T检验:
主要用于小样本(样本容量小于30)的两个平均值差异程度的检验方法(主要适用与总体方差未知的情况:即要用小样本的方差预估总体方差)
*T检验也是一种参数检验。(对方差齐性敏感,需要先检验方差齐性【F检验】)
对于与总体配对的T检验,要求方差齐次,只有方差齐了,才能反应其均值的差异。【不齐次有特殊处理方法】
适用于已知总体均值(单样本配对时需要总体均值,双样本不需要),样本均值,样本方差(即样本少总体方差未知),且大致来自于正太分布(一般除非明显的长尾多峰等分布以外,都大致可以检验)
基础:
H0假设 :与没有差异,其实就是一个comparison value,
H1假设(单边):样本A均值大于B(或者小于)
H1假设(双边):两个样本均值有差异 or
使用单边双边检验的区别:看你拒绝假设在两边,or一边
均值检验中统计量服从的T分布。为样本量
泛化形式,其中为H0假设的对比值(comparison value),为对应变量的标准差(一般总体参数未知)所以都是用样本标准差,当我们对比的是均值时,均值的标准差用来近似单总体样本:
H0:样本均值与总体均值相同
为样本均值,为总体均值,为样本标准差,为样本均值的标准差
双总体配对样本:(形式与上述一致)
为0假设下差异值的均值。为配对样本差值的标准差,为配对样本差值的均值的标准差
- 双总体非配对样本:
注:两个独立样本的差的variance是:
注:实际例子见[14]
这个公式是一个比值。一个普通的比喻是,t值为信噪比。
配对t检验除了自由度有所差异,其实本身也差不多。
上述公式本质分子都是均值,分母都是方差(均值的方差)。所以和z score本质也一样。
1)根据待检验的实验,计算出t值
2)根据t值查表获取p值,借此判断是否有统计学上的差异(不过通常做法是根据想要的p值【比如0.05】来查表获得临界的t值,再比较t值的大小来判断是否达到一定的显著性,t>临界t值,则效果显著)PS:p值代表原假设为真时【比如abtest两组无差异】,此事件发生的概率。【如果很小的话,则证明不太可能发生这样的情况,应该拒绝原假设,当然,拒绝也是有错误的可能性的,错误的概率也为p值,即我们认为abtest有显著差异其误判的概率是p】
Z检验:(统计量的计算形式与t检验一致)
统计量服从N(0,1)标准正太分布,查表即可知起临界值。
t分布相较于标准正太分布来说,n越小的时候越平坦,intuition上来说,即是样本越小,需要拒绝H0的临界值越大(样本小,则需要数值上越明显的差异)
Z检验核心思路与t检验类似。由于前提已知整体方差(基本要求样本数量大于30才能用样本方差代替整体方差,实际上样本量越大偏差越小),所以只适用于大样本量的数据。
实际上与t检验的区别就在于,t检验用的t分布查临界值(针对小样本),Z检验直接查标准正太分布表即可
T检验与F检验的差异[2]:
1、本质上T检验用以检验均值差异,F检验方差差异(譬如用于回归模型拟合程度检验:回归模型Fscore[3]),但是在方差分析ANOVA中,对F-test的应用也是检验均值的差异。[4]
2、T检验用于样本量小于30的情况(大于30,可视为population参数已知,用标准正太分布即可,z检验),F检验可以检验大规模数据
3、F statistics可以视为T statistic的泛化[5]
类似用途1:Ttest and Ftest for Regressor
检验线性模型的有效性:
1、对于Ttest是Linear Model的系数是否=0(H0)
2、对于Ftest是模型explained variance是否显著大于unexplained variance
差异:t-test一次只能test一个参数,而F test可以直接评估多个参数[8]。
,分母为的标准差,在OLS中可以用来估计参数的标准差。
,为sum of squares Restricted即限制了factors(independent variables)的模型,为sum of squares Unrestricted即未限制factors的模型。分别为他们参数的数量。
类似用途2: T-test and Anova(F-test)
在最简单的形式中,Anova(F-test)可以用以比较量2个或多个变量的均值,以此 generalize T-test。当在比较2组的时候,他们是等价的
我们拿个简单的例子,比较与在均值上是否存在差异(均值差异来自变量自身的variance还是组间差别):
PS:这里为了做简单的推导,所以将样本量都设为,其实将带入也是等价的。
ANOVA与OLS-LM的关系。
ANOVA其实是 OLS-Linear Regression一种特例(ANOVA只能对离散的factor做分析),所有能从ANOVA作出的推断,都能直接从OLS中得出[9],他们假设也是一致的,categorical变量解释不同factor之间mean的variance(组间variance),模型不能解释的就是residual(组内variance)。他们俩的和等于所有respond对总样本均值的variance
同时ANCOVA也经常用于[7]
ANCOVA(协方差分析)与ANOVA的差别
ANCOVA=ANOVA+Linear Regression。剔除Covariates带来的影响(erase the variable effects),关注treatment本身
ANCOVA与Anova的区别在于,Based on LM,加入了一个continuous covariates,其他一样[6]
Multi-factor(factorial) Analysis of Variance。
注:two-way anova也是factorial anova。
譬如我们要分析多个变量(independent variables),对dependent variable的影响程度。此时可以使用Multi-factor Analysis of Variance[10],或者有种思路是,看哪个factor解释的variance更多?用Ftest来解决:即A factor解释的variance是否显著大于B factor解释的variance。
跳出这个框架,或者对自变量标准化的回归分析[11],这种方案可以针对任何连续与离散变量。
Multivariate Analysis of Variance(MANOVA)
不是FANOVA[12]
关于p value
一般在做假设检验的时候,我们可以通过如下步骤:
1、设定alpha
2、计算统计量t
3、根据alpha查统计量阈值来确定拒绝还是接受(这里是比较统计量t即可,t>t阈)
第二种方法,直接计算p value(对于不同假设分布有不同计算pvalue的公式)
p value的含义是:
非常好理解,p值为在H0假设下,最终会产生得到当前数据的概率。
如果p < alpha(比如0.05)则在H0的假设下,Data产生概率非常小(小于显著水平alpha),则应该拒绝H0
(注:显著性水平alpha与p值pval不是一回事,不要搞混。alpha为我们设定的显著性水平,pval为计算出来概率。alpha是我们主观去设定的值,pvalue为伴随数据客观得到的值)
关于第一类,第二类错误
第一类错误:H0为真,但是拒绝了H0(弃真)。概率为alpha(常用的显著性水平,即是达到5%概率犯第一类错误的水平【即很大概率不会错误地拒绝H0】)
一般我们计算时,p值就是真实情况下,犯第一类错误的概率。
第二类错误:H0为假,但是接受了H0(取伪)。当我们设定了alpha后,如果显著性水平没有达到alpha的值,那么我们会接受假设H0。在这种情况下,仍然有一定概率H0为假。这个概率为Beta。
即为statistical power
通常,alpha设置的比较大,则beta也会比较大,如下图:
实践中,由于beta无法精确计算,但是我们还是想要降低第二类错误的概率,所以要做有如下的认知,beta的大小取决于两个因素:
1、H1假设与H0的距离,距离越大,beta越小。
2、alpha的值。alpha越大,beta越小。(更倾向于拒绝H0,一类错误概率增加,则二类错误率减少)。
通常在固定alpha,H1假设的情况下,要缩小beta需要增加样本量。
关于置信度,置信区间
置信水平(置信度)=1-显著性水平(alpha)
置信区间:U,V。指在一定的置信水平下(1-alpha),被观测参数的真实值会落在区间(U,V)之内。
PS:什么是统计量,统计量是样本的函数,且不依赖于任何未知的参数。比如样本均值就是个常用的统计量,mean(sample),它只依赖于所有样本的值。
PSS:一般来说,主要用于做区间估计。
[2]https://askanydifference.com/difference-between-t-test-and-f-test/
[3]F-score:https://en.wikipedia.org/wiki/Lack-of-fit_sum_of_squares
[4]:ANOVA中F检验也是compare均值,当Anova在只有两组的情况下(对应Ftest中的2个group,Ttest中的配对),F检验与T检验等价:。(F检验本身是比较两个方差,但是Anova中的F检验是比较between group variance,这个值其实是分组的均值的方差,所以本质也是在对比均值,即:组间均值的差异,是否来自于组内方差?)
if you have only two groups/factor levels, the F-test statistic is the square of the t-test statistic, and the F-test is equivalent to the two-sided t-test
https://stats.stackexchange.com/questions/411665/relation-between-f-test-and-t-test-are-they-mutually-exclusive
也可以见上述简化版的等价推导。##T-test and Anova1(F-test)
[5] F statistics 是T statistics的generalization,同理,chi-square statistics也是normal statistics的泛化
[6]:http://www.statsmakemecry.com/smmctheblog/stats-soup-anova-ancova-manova-mancova#:~:text=One%2Dway%20ANOVA%20has%20one,of%20Education%20and%20Zodiac%20Sign)
[7]:http://www.differencebetween.net/science/mathematics-statistics/difference-between-ancova-and-regression/#:~:text=ANCOVA%20is%20a%20model%20that,linear%20to%20the%20independent%20variable.&text=Regression%20is%20the%20relationship%20of,one%20or%20more%20independent%20variables.
[8]t-tests that can assess only one regression coefficient at a time, the F-test can assess multiple coefficients simultaneously
[9]https://snaveenmathew.medium.com/simple-linear-regression-and-anova-c93ae51bdecb
以及
https://stats.stackexchange.com/questions/190984/anova-vs-multiple-linear-regression-why-is-anova-so-commonly-used-in-experiment#:~:text=ANOVA%20and%20OLS%20regression%20are,drawing%20from%20the%20test%20statistic).&text=ANOVA%20cannot%20be%20used%20for,as%20the%20more%20limited%20technique.
[10]https://www.itl.nist.gov/div898/handbook/eda/section3/eda355.htm
[11]:回归分析中,对 variables 做standardization,https://www.researchgate.net/post/In-a-linear-regression-model-how-to-find-the-level-of-influence-of-each-independent-variables-on-the-dependent-variable
[13]McNemar's test. 不同于 ttest面向连续变量,这个是面向二分变量的。https://en.wikipedia.org/wiki/McNemar%27s_test
[14] 在特征检验中使用,即某特征划分的样本在指标上是否有差异(均值):https://blog.csdn.net/weixin_39753674/article/details/110534435