1. 方差常见缺陷
使用错估的方差可能导致实验不可信:
大于实际方差,导致 FP(第一类错误, 拒绝原假设):计算方差越大,分布越平摊,p值越大
小于实际方差,导致FN
1.1. delta 和 percent delta
percent delta 常用于评估效果,它的方差应该是var(Yt_bar/Yc_bar)。分子分母分别是实验组和控制组的指标均值的抽样分布的均值。
1.2. ratio metric:分析单元和实验单元不同时
比如CTR指标的分析单元是点击,而如果实验单元是用户,那么CTR的分析单元和实验单元则不同,也就不满足i.i.d.(独立同分布)。
虽然可以通过UTR或者计算单个用户的CTR再求均值(而非使用整体click除以view)来替代ctr指标,被称为average of ratio,单这两种计算都只给予了每个用户相同的权重。
而 ratio of "average of user level metrics", M=X_bar/Y_bar则可以使用 delta method来计算方差。
而一些指标无法由两个用户级别的指标计算而来的复合指标,比如页面加载时间的90分位数,则可以使用Bootstrap来获得。(Bootstrap可以参考ab doc)
1.3. 离群值(outliers)
离群值对方差的影响大于对均值的影响,书中演示在一个实例中,加入一个离群值,随着离群值逐渐增大,t检验量逐渐减小,最终实验组不再显著优于控制组。因此使用技术方法或场景经验剔除离群值是十分必要的。
2. 提高敏感度(减小方差)
提高敏感度,通常即是提高功效,常见的手段则是减小方差,减小方差的方法:
选择低方差的指标替代同质的高方差的指标:比如使用购买转换率替换购买花销。
capping(设置最大值,大于改值的值转换成最大值), 对长尾数据计算对数指标, 转换成二项分布指标(比如netflix设置将时长是否大于1H生成一个二项分布的指标)。
triggered analysis(第二十章会介绍trigger):移除不受改动影响的用户,从而移除他们带来的噪音。
-
用户分层,控制变量法(control variates),CUPED等方法。
用户分层:仅求和组内方差,剔除组间方差以减小总方差。
-
控制变量法
CUPED
-
在更细粒度随机分流实验单元,比如对页面加载时间的影响,在单个页面进行随机分配,而非对每个用户分配一个固定的加载时间。但这会引入缺点
- 用户体验不连贯。
- 没法计算用户级别的指标:比如用户人均pv,留存等等。
匹配样本(paired/matched samples):对同一批用户展示对照和控制两组内容:搜索结果排序结果常用。(商务与经济统计举例 工人前后使用两种装配方法,直接用统一工人两组方法的消耗时间之差作为统计量,之后进行单样本的估计和假设检验。)
多组实验共享对照组