统计学中的P/F/T

我们常常在统计学应用中看到P值，F值，T值，这些参数是什么？我想应该先讲讲“假设检验”，弄明白假设检验，很多问题就通了。

本文首先介绍了假设检验在统计学的位置，然后从显著性检验、P值的疑问、假设检验方法的使用三个角度描述假设检验。

一、背景简介

1、描述统计学与推断统计学

统计学按照发展阶段和侧重点不同，可分为描述统计学和推断统计学^[1]

描述统计学是阐述如何对客观现象的数量表现进行计量表示；
推断统计学主要阐述如何根据部分数据(样本统计量)去推论总体的数量特征及规律性的一系列理论和方法

2、假设检验

假设检验(hypothesis testing)作为推断统计学的重要部分，用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

显著性检验是假设检验中最常用的一种方法，也是一种最基本的统计推断形式，其基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出推断。

常用的假设检验方法有Z检验、T检验、卡方检验、F检验等^[2]

二、假设检验

1、显著性检验

显著性检验（significance test）是假设检验的一种最常用的方法，用于检测实验组与对照组是否有差异以及差异是否显著的办法。

（1）隐性大背景

因为显著性检验<假设检验<推断统计学，所以显著性检验具有以下特点：

总体样本太大，只有样本数据，通过样本来推断总体
无假设，不检验。先明白假设是什么

（2）显著性检验定义

设置：
（1）原假设 $H_0$ ：无显著性差异，备择假设 $H_1$ ：存在显著差异；
（2）显著性水平 $\alpha$ ；
（3）一种在原假设为真的前提下出现观察样本以及更极端情况的概率： $P$
判断：
如果 $P \leq \alpha$ ，则拒绝原假设，认为两个样本差异显著；
如果 $P$ > $\alpha$ ，则接受原假设，认为两个样本差异不显著

小概率事件实际不可能性原理是显著性检验的基本原理，如果P小于阈值 $\alpha$ ，表明事件是小概率事件，存在发生的可能性但可能性不大甚至不可能发生，所以认为 $H_0$ 大概率不会发生，拒绝原假设。

（3）显著性水平 $\alpha$

显著性水平是假设检验中的一个概念，是指当原假设为正确时人们却把它拒绝了所愿意承担的风险。
通常取α=0.05或α=0.01。这表明，当作出决策时，其正确的可能性为95%或99%，有0.05或α=0.01下错结论的风险。

（4）置信度

置信度也称为可靠度，或置信水平、置信系数
置信度 = 1-α

（5）什么是差异显著？

什么是显著性差异？

显著性差异(significant difference)，是一个统计学名词。它是统计学上对数据差异性的评价。当数据之间具有了显著性差异，就说明参与比对的数据不是来自于同一总体^[4]。

（6）H0和H1的内容是随便设置的吗？

H0和H1的设置，不管在什么场景要满足：

H0：样本差异不显著
H1：样本存在显著性差异

（7）案例应用^[5]

赌场上你想检查一下抛掷的硬币是否被动过手脚，要求抛几次硬币看结果是不是公平的。
总共扔了十次，也都是“花”朝上，认为很可能这枚硬币不是公平的。

这就是假设检验：
你提出假设：说硬币是正常的（H0：硬币是正常的；H1：硬币不正常）
我提出要检验你的假设：扔十次，看实验的结果是不是和你的假设相符

反复扔硬币应该符合二项分布

扔了十次之后得到的结果是，有八次正面。
P是一种概率，一种在原假设为真的前提下出现观察样本以及更极端情况的概率，所以 $p-value = P(8 \leq x \leq 10)=0.05$

总共扔10次硬币，那么是出现7次正面之后，可以认为“硬币是不公平的”，还是在出现9次正面以后认为“硬币是不公平”，这是一个主观标准，看你能够承担的风险有多大，也就是显著性水平 $\alpha$ 。

例如取 $\alpha$ 为0.05， $p-value \leq 0.05$ ，则认为原假设是小概率事件，拒绝原假设，认为硬币不正常，存在显著性差异（和正常硬币的抛掷分布情况很不一样）。
由于取 $\alpha$ 为0.05，所以这个决策有95%的准确性。

2、P值

P值是指在特定的统计假设模型下，数据的某个统计指标（如两组样本均数之差）等于观察值或比观察值更为极端的概率。

上文显著性检验就是比较P值和 $\alpha$ 之间的关系做出决策，但对P值的争议很大，因此需要单独讲一讲P值。

（1）P值的争议

目前科学界对P值的使用存在很大的置疑，认为P值是是扰人烦的蚊子，是皇帝的新衣，比“毫无用处”还糟糕^[6]。

林泽民教授2016/6/6在台湾政大社科院的演讲，题目为《看电影学统计：p值的陷阱》提到统计学很快会有很重大的改变，传统的作法：用P值来作统计检定的作法，大概再过几年就不容易再存在。

2018年1月22日，美国政治学顶级学术期刊《政治分析》在他们的官方twitter上宣布从2018年的开始的第26辑起禁用p值。根据该刊的声明，其主要原因是：“p值本身无法提供支持相关模式或假说之证据。”

在临床试验中P值的使用尤为普遍，用来检验药物的有效性，P值问题使得近半数的相关论文可靠性被推翻。

（2）P值的问题

为什么说P值是个陷阱？为什么P值本身无法支持相关模式或假说之证据？

主要原因是因为：P值只能对样本数据负责，但模型的意义在于推断总体，所以总有以偏概全的风险存在。同时，因为P值易受样本操控，而很多研究为了得到想要的结论，往往是不断调整样本量，直到得到想要的结果^[8]。

P值本身是没有问题的，但如果单纯只依赖P值是否小于 $\alpha$ 做出决策却也是不可取的，学术界反对的是P值的滥用。

（3）P值统计意义

美国统计协会（American Statistical Association，ASA）全面透彻地梳理了统计界关于P值的统计意义并形成共识^[7]：

P值表示数据与特定的统计模型不匹配的程度。
即在原假设的前提下，P值越小，越有理由拒绝原假设。
P值不是研究假说为真的概率。
P值说明数据与假设的关系，而不解释假设本身。
科学结论、商业决策或政策制定不能取决于P值是否超过规定的界值。
成功的决策应考虑实验设计、数据质量、外部证据、假设的合理性等诸多因素。仅仅看P值是否小于0.05是非常具有误导性的。
正确的推断依赖于报告的全面性和透明度。
研究者要公布研究中所有的假设、数据收集和统计分析过程，以及P值。
P值并不表示处理效应的大小或结果的重要性。
再微小的效应，当样本量足够大或测量精度足够高时，都能获得较小的P值；反之再大的效应在样本量不足或测量精度不高时，其P值也会很大。
P值本身并不是衡量一个模型或假说的标准。
数据分析时不能仅计算p值，而应同时采用其他适合的或可行性更高的方法。

3、统计推断检验方法

（1）检验方法

而常用统计推断检验方法分为两大类：参数检验和非参数检验

参数检验，就是假定数据服从某种分布，通过样本信息对总体参数进行比较检验（T检验、F检验、方差分析等）
非参数检验，不要求所研究的样本所来自的总体具有某种分布，进行的不是参数之间的比较，而是分布位置、分布形状之间的比较

参数检验是针对参数做的假设；非参数检验是针对总体分布情况做的假设
参数检验要用到总体的信息，一次来推测具体参数；非参数检验退而求其次，致力于对总体的分布做出推测。

根据总体数据是否服从某种分布，采用参数检验和非参数检验两种检验方法，具体使用哪种检验方法根据属性和要求决定。

（2）案例应用

某公司运营团队为了针对活跃度提升专题运营活动的效果进行测试，从同样群体中抽出两组人群，一组运营组，一组对照组。30天后运营活动结束后，想要知道该次针对性运营是否有效，两组活跃度分数是否差异明显?

T检验是数据化运营效果分析中应用最多的方法和技术。使用要求为：1）样本组之间独立；2）每组样本来自正态分布总体；3）两个独立样本方差相等。

样本组a和b，Equality of Variances检查ab两组样本方差是否差异显著，P=0.375>0.05，因此接受原假设，认为a和b两组方差没有显著差异（不是相等）。

因此可以使用T检验，检验P=0.0006<0.05，拒绝原假设，表明ab两组存在显著性差异，两组样本的活跃度均值是有差异的，运营是有效果的

虽然两组都是独立的，但两组样本的总体不一定是正态分布的，方差也不一定相等，我们可以采用非参数检验—wilcoxon符号秩检验。

wilcoxon符号秩检验适用于两个独立样本间的两两比较。

two-sided 的P值为0.011，小于0.05，拒绝原假设，认为两个独立组的活跃度分数的均值是不相等的。

如果不能确定总体是否为正态分布，则只能退而求其次用非参数检验的方法。如果满足T检验要求，有限考虑T检验的结果。

参考资料

[1] 推断统计学：https://baike.baidu.com/item/%E5%BD%92%E7%BA%B3%E7%BB%9F%E8%AE%A1%E5%AD%A6/10023692?fr=aladdin
[2] 假设检验：https://baike.baidu.com/item/%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C/638320?fr=aladdin
[3] 显著性水平：https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E6%B0%B4%E5%B9%B3/1383148?fr=aladdin
[4] 显著性差异：https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E5%B7%AE%E5%BC%82/950812?fr=aladdin
[5] 统计学假设检验中 p 值的含义具体是什么？https://www.zhihu.com/question/23149768/answer/23758600
[6] 统计学里“P”的故事：蚊子、皇帝的新衣和不育的风流才子：https://www.guokr.com/article/438043/
[7] 临床试验中P值的意义及结果：http://www.sohu.com/a/192858946_776163
[8] P值的陷阱：https://www.zhihu.com/search?type=content&q=P%E5%80%BC%E9%99%B7%E9%98%B1
[9] 非参数检验：https://www.zhihu.com/search?type=content&q=%E9%9D%9E%E5%8F%82%E6%95%B0%E6%A3%80%E9%AA%8C