tags: A/B测试
项目说明
在进行此试验时,优达学城当前的主页上有两个选项:“开始免费试学”和“访问课程资料”。如 果学生点击“开始免费试学”,系统将要求他们输入信用卡信息,然后他们将进入付费课程版本 的免费试学。 14 天后,将对他们自动收费,除非他们在此期限结束前取消试用。若学生点击 “访问课程材料”,他们将能够观看视频和免费进行小测试,但是他们不会获得导师指导或认证 证书,无法提交最终项目来获取反馈。
在此试验中,优达学城测试了一项变化,如果学生点击“开始免费试学”,系统会问他们有多少 时间投入到这个课程中。如果学生表示每周 5 小时或更多,将按常规程序进行登录。 如果他们表示一周不到 5 小时,将出现一条消息说明优达学城的课程通常需要更多的时间投 入才能成功完成,并建议学生可免费访问课程资料。在这里,学生可选择继续进行免费试学, 或免费访问课程资料。
我们假设这会为学生预先设定明确的期望,从而减少因为没有足够的时间而离开免费试学,并因此受挫的学生数量,同时不会在很大程度上减少继续通过免费试学和最终完成课程的学生数量。
如果这个假设最后为真,优达学城将改进整体的学生体验和提升导师为能够完成课程的学生提供帮助支持的能力。
分组单位为 cookie ,尽管学生参加的是免费试学,但在登录后他们的用户 id 便被跟踪。同一 个用户 id 不能两次参加免费试学。对于不参加免费试学的用户,他们的用户 id 不会在试验中 被跟踪,即使他们在访问课程概述页面时登录了网站。
度量选择
每个度量的实际显著性边界——即在它成为有意义的业务变化前必须观察的差异,在括号中给出。所有实际显著性边界作为绝对变化给出。
• ==cookie 的数量==:即访问课程概述页面的唯一 cookie 的数量。 ( d 最小 =3000 )
• ==用户 id 的数量==:即参与免费试学的用户数量。 ( d 最小 =50 )
• ==点击次数==:即点击“开始免费试学”按钮的唯一 cookie 的数量(在免费试学筛选器触发前发生)。 ( d 最小 =240 )
• ==点进概率==:即点击“开始免费试学”按钮的唯一 cookie 的数量除以查看课程概述页的唯一 cookie 的 数量所得的比率 ( d 最小 =0.01 )
• ==总转化率==:即完成登录并参加免费试学的用户 id 的数量除以点击“开始免费试学” 按钮的唯一 cookie 的数量所得的比率。( d 最小 =0.01 )
• ==留存率==:即在 14 天的期限过后仍参加课程(因此至少进行了一次付费)的用户 id 数量除以完成登录的用户 id 的数量。 ( d 最小 =0.01 )
• ==净转换率==:即在 14 天的期限后仍参与课程的用户 id 的数量(因此至少进行了一次付费)除以点击了“开始免费试学”按钮的唯一 cookie 的数量所得的比率。( d 最 小 =0.0075 )
根据我们的假设选择需要测量的度量、不变度量、评估度量。
• cookie 的数量:测量,用作不变度量,可看作总体规模指标,试验组与对照组总体规模应大体一致。
• 用户 id 的数量:测量,测量用于计算评估度量总转化率,此度量发生于试验之后,会受到试验的影响,因此它是一个ok的评估度量。但是,由于实验组和对照组的cookie数量不一定相同,也就是说两组中用户ID数量不同可能是由于实验的影响,也可能是由于两组cookie的不同。所以使用用户ID数量的区别不能够很好的评估试验的效果。在一个比例化的评估度量(总转化率)存在的情况下,我们可以不选择用户ID的数量作为评估度量。
• 点击次数:测量,用作不变度量,试验发生之前采集的度量,不受增加变化的影响
• 点击概率:测量,用作不变度量,试验发生之前采集的度量,不受增加变化的影响
• 总转化率:测量,用作评估度量,因为我们的假设是在增加了此项变化后,减少开始免费试学的学员数量,若假设成立,总转化率降低,所以总转化率用作评估度量
• 留存率:也发生于试验之后,也是比较不错的评估指标。不过经过后续的计算,我们会发现它需要过多的页面浏览量(4741212)和试验运行时(119days),因此在规定的时间内我们无法采集足够的样本数据,也不适合作为评估度量
• 净转换率:测量,用作评估度量,因为我们还假设完成最终课程(至少一次付费)的学生数量不明显减少,即净转化率不减少
希望启动试验后的结果:总转化率降低,净转化率不变或者增加
测量可变性
图中数据包含了三个度量的基准值的粗略估计(再次说明这些数字是从优达学城的真实数字变化而来)
• cookie 的数量:40000
• 点击次数:3200
• 完成注册数量:660
• 点击概率:0.08
• 总转化率:0.20625
• 留存率:0.53
• 净转换率:0.1093125
估计评估度量的标准偏差:
对于评估度量的每个度量,假设有 5000 个 cookie 样本大小访问课程概述页面的情况下,分析估计其标准偏差
• 总转化率的标准偏差:
se = sqrt(p(1-p)/N)=sqrt(0.20625*0.79375/5000*0.08)≈ 0.0202
总转化率的分析单元是cookies,分组单元也是cookies,分析变异性和经验变异性差异相对会小
• 净转化率的标准偏差:
se = sqrt(p(1-p)/N)=sqrt(0.1093*0.8907/5000*0.08) ≈ 0.0156
净转换率的分析单元是cookies,分组单元是cookies,分析变异性和经验变异性差异相对会小
标准偏差公式:sqrt(P*(1-P)/N)
关于Bonferroni校正:
Bonferroni校正主要适用于n次独立检验。但是本试验中的总转化率和净转化率并非是独立的,而是相关联的,因此使用Bonferroni校正会使得试验结果过于保守,不建议使用。
此试验需要的页面浏览量(alpha = 0.05,beta = 0.2):
a)使用总转化率评估标准计算出试验需要的pageview
样本计算器得到的sample size是点击“开始免费试学” 按钮的唯一 cookie 的数量,其跟页面浏览量的比率是0.08,同时是计算试验组和控制组需要的页面浏览量,因此:
pageview=25835/0.08*2=645875
b)使用净转化率评估标准计算出试验需要的pageview
pageview=27413/0.08*2=685325
选择较大的页面浏览量,以满足两个评估标准的需要,试验所需要的页面浏览量为685325个。
流量选择:
将转移100%的优达学城流量到此实验,试验组的这一变化只是让点击免费试学的用户根据自己的实际情况再选择一次课程,风险很小,试验所需的样本数量相对优达学城流量有很大,所以为避免试验时间过长,可以使用全部流量。
试验持续时间:
685325/40000≈17.13
试验所需要的页面浏览量除以优达学城每天的页面浏览量,结果向上取整,得到试验所需要的持续时间为18天。
风险分析:
1.即使学生每周学不到五小时,他们只是被页面的变更提醒引导到了另外的一个页面,如果今后有需要学生仍然可以进入免费试学、登陆并可能完成继续课程的,不会因此影响用户使用网站的习惯;
2.没有在页面展示上有过大的改动,不会对用户产生感情上的冲击,用户也不需要花长时间去适应页面的改变;
3.该试验没有关于数据库及后台的改变,不用担心数据的丢失及由于后台的失误导致网页奔溃用户无法访问网页等大问题;
4.此试验也不会对用户的个人信息安全造成风险,因为不论网页是否增加了提醒,用户在确认参加免费试学时都得输入信用卡信息,而很明显系统一定会保护用户的个人信息;
5.该试验同样也没有道德上的风险。
分析
要分析的数据在这里 enter description here 。此数据包含计算上述度量所需的原始信息,按天细分。请注意电子表 格中共有两个表,一个用于试验组,一个用于对照组。
每一列代表:
• 网页浏览数:该天唯一 cookie 访问课程概述页面的次数。
• 点击次数:该天唯一 cookie 点击课程概述的次数。
• 注册量:该天参与免费试学的用户 id 的数量。
• 付费量:该天参加试用且在 14 天后继续参加并进行了付费的用户 id 的数量。(注意此列的日期为开始日期,即参加日期,而非付费日期。试学 14 天后开始收费。因此,参加量和付费量跟踪时间 比其他列少 14 天。)
合理性检查
检查试验组和控制组之间的不变度量是否相等,有两种方法。
第一种是:算出试验组和控制组的概率,然后根据控制组的p来算SE和margin,然后与控制组的概率比较。
第二种是:根据二者概率的不同,算出SE_pool和margin,然后与0比较。
• [cookie 的数量]的完整性检查:
第一种方法:
n_contr=345543
n_exp=344660
n_total=690203
p_contr≈0.5006
p_exp≈0.4994
SE=sqrt[p_contr*(1-p_contr)/n_contr]≈ 0.00085
margin=SE*1.96≈0.0017(α=0.05,双尾Z检验)
lower bound=p_contr-margin≈0.4990
upper bound=p_contr+margin≈0.5023
结论:p_exp=0.4994,在置信区间[0.4990,0.5023]内,合理性检查成功
• [点击次数]的完整性检查:
第一种方法:
n_contr=28378
n_exp=28325
n_total=56703
p_contr≈0.5005
p_exp≈0.4995
SE=sqrt[p_contr*(1-p_contr)/n_contr]≈ 0.003
margin=SE*1.96≈0.0058(α=0.05,双尾Z检验)
lower bound=p_contr-margin≈0.4946
upper bound=p_contr+margin≈0.5063
结论:p_exp=0.4995,在置信区间[0.4946,0.5063]内,合理性检查成功
• [点击概率]的完整性检查:
第二种方法:
x_conr=28378
x_exp=28325
n_contr=345543
n_exp=344660
n_total=690203
P_pool=(x_conr+x_exp)/n_total≈0.0822
SE_pool=sqrt[P_pool*(1-P_pool)*(1/Ncont+1/Nexp)≈0.00066
margin=SE*1.96≈0.0013
0为中点算出置信区间:
lower bound=0-margin=-0.0013
upper bound=0+margin=0.0013
p_contr=x_conr/n_contr≈0.082126
p_exp=x_exp/n_exp≈0.082182
d≈0.000056
结论:d=0.000056,在置信区间[-0.0013,0.0013]内,合理性检查成功
检查实践和统计显著性
• [总转化率]的效应分析:
P_pool = (3758+3423)/(17293+17260) ≈ 0.0286
SE = sqrt(p(1-p)(1/n_contr+1/n_exp)) ≈ 0.0044
margin = 1.96*SE ≈ 0.0086
p_contr = 3785/17293 ≈ 0.2189
p_exp = 3423/17260 ≈ 0.1983
d = p_exp - p_contr ≈ -0.0205
upper bound=d - margin = -0.0291
upper bound=d + margin = -0.0120
以上,试验组与控制组总转化率差值的95%的置信区间为(-0.0291,-0.0120),此置信区间不包括0,因此总转化率具有统计显著性,也就是说,网站增加变化后,总转化率确实有改变。同时,此置信区间不包含实际显著性边界(-0.01,0.01),具有实践显著性。
• [净转化率]的效应分析:
P_pool = (2033+1945)/(17293+17260) ≈ 0.1151
SE = sqrt(p(1-p)(1/n_contr+1/n_exp)) ≈ 0.0034
margin = 1.96 * SE ≈ 0.0067
p_contr = 2033/17293 ≈ 0.1176
p_exp = 1945/17260 ≈ 0.1127
d = p_exp - p_contr ≈ -0.0049
lower bound=d - margin = -0.0116
upper bound=d + margin = 0.0019
以上,试验组与对照组净转化率差值的95%的置信区间为(-0.0116,0.0019),此置信区间包括0,因此净转换率不具有统计显著性,也就是说,网站增加变化后,净转化率没有明显变化。同时,此置信区间包含实际显著性边界(-0.0075,0.0075),不具有实践显著性。
符号检验
使用在线符号检验计算器计算p值
• 总转化率:p = 0.0026 小于α=0.05,具有统计显著性
• 净转换率:p = 0.6776 大于α=0.05,不具显著性
建议
不会启动这个试验
原因:总转化率具有统计和实际显著性,是我们希望看到的结果。但是净转化率的置信区间包含负数,置信区间的含义是”我们有95%的信心试验结果会落在这个区间“,根据此处的计算结果(-0.0116, 0.0019),也就是说有很大的概率净转化率会减少,并且有一定的概率净转化率的减少会超过实际显著性0.0075。因此我们无法说明”降低的程度不大“。所以不建议启动。
跟进试验
==试验==:点击“开始免费试学”后,将按简单程序(不需要要输入银行账号信息)进行登录,然后他们将进入付费课程版本的免费试学。14 天后,系统将询问他们是否继续课程,可以选择输入银行账号信息,缴费后继续学习,也可以选择离开课程,访问课程材料
==转移单位==:转移单位为 cookie
==评估度量==:总转化率和净转化率,变化发生后的度量,符合目的假设
==变化影响的假设==:减少因为没有足够的时间而离开免费试学,并因此受挫的学生数量,同时不会在很大程度上减少继续通过免费试学和最终完成课程的学生数量。