本篇旨在记录阅读MDE相关文档时获取到的知识点,参考文档见最后part。
第一类错误和第二类错误:
第一类错误和第二类错误发生的概率是相对的,降低第一类错误的同时会提升第二类错误,反之亦然,所以需要从决策端来看我们更想要降低哪一类错误;同时降低两类错误的概率仅有增加样本量的方式。
第一类错误:拒绝原假设|H0为真,1-𝛼即confidence level,一般𝛼取5%
正确判断:接受原假设|H0为真
power 统计功率:拒绝原假设|H0为假,在变体之间确实有显著差异的情况下检测到变体之间有意义的差异的概率
-
第二类错误β:接受原假设|H0为假,power = 1-β,一般β取20%
MDE:Minimum Detectable Effect 最小可探测效应
MDE衡量了我们对实验的判断精确度的最低要求,但不是 AB 测试中可以检测到的最小可能影响,AB 测试始终可以提供显著性结果,尽管效果小于 MDE(此处个人理解应该是假设检验始终可以给出是否显著的结果,但与baseline的差异可能是小于MDE)。MDE参数的选定通常需要和业务方商定。
- 参数越大(比如10%),说明我们期望实验能够检测出10%的差别即可。检测这么大的差别当然比较容易(power变大),所以保持power不变的情况下,所需要的样本量会变小。
- 参数越小(比如1%),说明我们希望实验可以有能力检测出1%的细微差别。检测细微的差别当然更加困难(power变小),所以如果要保持power不变的话,需要的样本量会增加。
-
可以作为参数之一来计算最小样本量。固定其他参数的情况下,MDE和所需样本量的对应情况
最小样本量计算器
以检测cvr为例,使用最小样本量计算器https://www.evanmiller.org/ab-testing/sample-size.html,计算实验最小样本量需要以下几个参数:
- Statistical power
- Significance level
- Baseline rate
- Minimum detectable effect
实验周期计算
所需的总样本数:上一部分计算出的每个变体最小样本量* 变体个数
实验需要进行的周数 = 总样本数量/每周进入实验的样本数
参考:
https://zhuanlan.zhihu.com/p/40919260
https://towardsdatascience.com/how-to-set-the-minimum-detectable-effect-in-ab-tests-fe07f8002d6d
https://support.optimizely.com/hc/en-us/articles/4410283338253-Use-minimum-detectable-effect-to-prioritize-experiments