假设检验和ABTEST（一）

参考:
从假设检验到AB实验——面试前你要准备什么？
一文入门A/B测试（含流程、原理及示例）
A/B testing（一）：随机分配(Random Assignment)里的Why and How
第一类错误和第二类错误的关系是什么？
假设检验的逻辑是是什么？

为什么要进行假设检验

我们在生活中经常会遇到对一个总体数据进行评估的问题，但我们又不能直接统计全部数据，这时就需要从总体中抽出一部分样本，用样本来估计总体情况。

举一个简单的例子：

学而思网校App进行了改版迭代，现在有以下两个版本

版本1:首页为一屏课程列表；版本2：首页为信息流

如果我们想区分两个版本，哪个版本用户更喜欢，转化率会更高。我们就需要对总体（全部用户）进行评估，但是并不是全部存量用户都会访问App，并且每天还会新增很多用户，所以我们无法对总体（全部用户）进行评估，我们只能从总体的用户中随机抽取样本（访问App）的用户进行分析，用样本数据表现情况来充当总体数据表现情况，以此来评估哪个版本转化率更高。

假设检验

学了这么久《概率论与数理统计》，到底什么是假设检验。

假设检验其实就是反证法，想要证明一个命题是正确的，只能通过证明其否命题是错误的来达到目的。假设检验是用统计数据来判断命题真伪的方式。所以通常，先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立

常常会假设两个命题：
H0：备受质疑的命题
原假设，也叫零假设，用H0表示。原假设一般是统计者想要拒绝的假设。原假设的设置一般为：等于=、大于等于>=、小于等于<=。
H1：有待验证的问题
备择假设，用H1表示。备则假设是统计者想要接受的假设。备择假设的设置一般为：不等于、大于>、小于<。

为什么统计者想要拒绝的假设放在原假设呢？因为原假设备被拒绝如果出错的话，只能犯第I类错误，而犯第I类错误的概率已经被规定的显著性水平所控制。

两类错误【弃真错误(I类错误)、去伪错误(II类错误)】

第一类错误（Ⅰ类错误）也称为 α错误，是指当H0正确时，而拒绝H0所犯的错误。这意味着研究者的结论并不正确，即观察到了实际上并不存在的处理效应。，这个错误的概率我们记为α。这个值也是显著性水平，在假设检验之前我们会规定这个概率的大小。
第二类错误（Ⅱ类错误）也称为β错误，是指H0错误时，反而接受虚无假设的情况，即没有观察到存在的处理效应。这个错误的概率我们记为β。

两者的联系：
下图中红色阴影部分的面积为α，即第一类错误犯错的概率；黑色的阴影部分的面积为β，即第二类错误犯错的概率。

通常情况下，我们关注α，因为我们是对于H0所以应的样本进行观测和做出判断的，α就是H0与H1交集且在H1的部分(拒绝H0接受H1)；而对于β，我们用的是H1对应的样本的总体(有多少样本点导致在前一步计算检验统计量时不拒绝H0)进行判断的，β就是H0与H1交集且在H0的部分(拒绝H1接受H0)。

通过上述说明，对照图你可能就能理解，为什么我们会说减少第一类错误的发生概率就会增加第二类错误的概率，因为，第一类错误的概率是我们根据检验水准人为设定的，当我们把检验水准从0.05提高到0.01时，我们减少了图中红色阴影的面积，但增大了图中黑色阴影的面积，该面积即为第二类错误发生概率。另一个常见的问题是为什么只有增加样本量才能同时减少这两类错误的犯错概率，简单理解，就是由于样本量的增加会降低标准误的大小（标准误=S/根号N，样本本量N越大，标准误越小，反映在图形中就是两个总体（假设总体和实际总体）变得更“细瘦”，所以重合的部分越少，由此代表犯错概率的图形的面积也会变小。

显著性水平

显著性水平是指当原假设实际上正确时，检验统计量落在拒绝域的概率，简单理解就是犯弃真错误的概率。这个值是我们做假设检验之前统计者根据业务情况定好的。

显著性水平α越小，犯第I类错误的概率自然越小，一般取值：0.01、0.05、0.1等

当给定了检验的显著水平a=0.05时，进行双侧检验的Z值为1.96，t值为。

当给定了检验的显著水平a=0.01时，进行双侧检验的Z值为2.58 。

当给定了检验的显著水平a=0.05时，进行单侧检验的Z值为1.645 。

当给定了检验的显著水平a=0.01时，进行单侧检验的Z值为2.33

检验方式

检验方式分为两种：双侧检验和单侧检验。单侧检验又分为两种：左侧检验和右侧检验。

双侧检验：备择假设没有特定的方向性，形式为“≠”这种检验假设称为双侧检验

单侧检验：备择假设带有特定的方向性形式为">""<"的假设检验，称为单侧检验 "<"称为左侧检验 ">"称为右侧检验

假设检验步骤

提出原假设与备择假设
从所研究总体中出抽取一个随机样本
构造检验统计量
根据显著性水平确定拒绝域临界值
计算检验统计量与临界值进行比较

两种假设检验

假设检验根据业务数据分为两种：一个总体参数的假设检验和两个总体参数的假设检验

一个总体参数的假设检验：只有一个总体的假设检验

举个例子：学而思App原版本1转化率为 19%，学而思App版本2开发完成后，直接全量发布整体上线，过一段时间后统计转化率为27%，我们想判断版本2是否比版本1好，这时我们做的假设检验总体只有1个，全部用户。对于总体只有一个的称为一个总体参数的假设检验。

单个总体：
- 参数的假设检验需要注意大小样本的区分、sigma是否已知来判断采用T检验还是Z检验
- 成数的假设检验(比率) 此时的标准差需要注意

两个总体参数的假设检验：有两个总体的假设检验

同样的例子：学而思App版本1和学而思App版本2同时上线，流量各50%，这时我们做的假设检验总体有2个，分别为命中版本1的全部用户与命中版本2的全部用户。

两种假设检验的检验统计量计算方式有所不同，所以做区分描述。

两个总体
- 参数的假设检验
- 成数的假设检验

确定检验类型及检验统计量

在判断用什么检验的时候，首要考虑的条件是样本量，其次是总体服从的分布。

样本容量大时（统计学上一般认为n≥30），总体的均值和标准差未知，不要求总体近似服从正态分布。根据中心极限定理，样本容量大，则样本均值的抽样分布服从正态分布，总体标准差可以用样本标准差来估计，可用Z检验；
当样本容量小于30，且满足总体近似服从正态分布时，如果总体标准差已知，可用Z检验；
当样本容量小于30，且满足总体近似服从正态分布时，如果总体标准差未知，可以用样本标准差去估计总体标准差，由此可用T检验；
当样本容量小于30，且不满足总体近似服从正态分布，不能用Z检验和T检验。

简单地说其实就是，总体标准差怎么估计的问题。检验类型确定了，检验统计量也就确定了。

（不过现在的很多软件简化了上述步骤，改为，若总体标准差已知（无论样本大小）都用Z检验；若总体标准差未知，都用T检验。不过当样本量够大的时候，T分布也近似于Z分布了，所以最后的结果不会差很多。T分布其实是小样本的Z分布。一个样本的自由度越大，样本方差就越接近总体方差，T分布也就越接近Z分布。因此T分布的形状随自由度的变化而变化，自由度越大，越接近正态分布。）

面试题：

你会怎么证明中医的有效性？

利用假设检验来证明：
第一步: 提出原假设和被择假设：H0：中医是无效的。 H1：中医是有效的。 H0是我们希望推翻的命题，H1是希望被证实的命题。
第二步：从整体的研究样本中抽样，这里应选择两个总体：两组生理特征和疾病状况一致的人，一组人不给予治疗，另一组给予中医治疗，持续观测两组人的生理数据。
第三步：根据两组人的生理数据构造T统计量(双样本σ未知)进行T检验。
第四步：根据显著性水平确定拒绝域或者P值。
第五步：构造拒绝域，考察0与拒绝域的关系；或者计算p值，比较其与显著性水平的关系。

置信区间和置信度你了解吗？

在假设检验的过程中，我们往往采用样本数据特征来估计整体的数据特征。在中心极限定理里，我们知道从总体中进行N次样本抽取，N次样本的均值会围绕总体均值上下波动。因此，置信区间就是为总体的均值提供了一个可波动的范围，置信区间与置信度是相对应的。例如，在95%的置信度下，置信区间为【a,b】，也就是说，抽取100次样本，其中有95次样本的均值能够落在【a,b】范围内