ABtest
1.在abtest的应用 p值的意义,第一类和第二类错误的定义是什么?(快手、字节跳动、猿辅导)
参考答案
AB实验实际上是建立在假设检验的基础上的,P值就是在原假设成立的前提下,出现原假设以及更极端现象的概率,定义了第一类错误的具体程度,第一类错误α叫弃真错误或显著性水平,即原假设为真时却被我们拒绝的概率;
第二类错误β叫采伪错误,即原假设为伪我们没有拒绝的概率。在一定样本量的情况下,减小一类错误必然会增大另一类错误,在实践中我们一般会优先控制第一类错误,因为原假设是非常明确的
==AB实验就是假设检验的升级版,p值就是原假设成立下,与其对立的小概率事件发生的概率
一类错误就是拒绝了正确假设,其实这也没啥,顶多少赚点
二类错误就是接受了错误假设,这可不得了,会产生很难以估计的后果,这也就是为什么增大a可以降低1类错误,却没人敢用的原因了,因为它会提高2类错误发生率。
==另外这里说一下统计功效,就是1-β,就是当AB两组有差异时被检测出来的概率,越大越好,及第二类错误越小越好(4-15
答案解析
1-第一类错误也即原假设为真的情况我们接受的概率,对于AB实验,犯这个错误代表新策略没有收益,我们却认为有收益,然后上线的错误,一般第一类错误不超过5%,第一类错误是明显的,也就是说在原假设为真的情况下接受原假设的概率要超过95%;
统计功效=1-第二类错误,也即当AB两组实际有差异时,能被我们检测出来差异的概率
参考答案
实验的流程:确定目标和假设->确定指标->确定实验单位->计算样本量->实施测试->分析实验结果
==首先得明确企业的核心目标,以此来找指标,然后就是实验的单位了下面有详细解释,再是样本量,然后就是结果分析了,注意辛普森悖论。
==最先肯定是要知道目的是啥,对不对,然后就是提出假设,假设这个方案还阔以,接下来就是找指标了,这些指标可以证明你的这个假设是成立的。
但是到这里还不够,接下来得开始干了,得先确定你要找多少样本,样本要是多了,实验失败的话损失太大,样本要是小了实验的可靠性又变得不高了。确定好样本就要实施实验了,然后后面分析结果时候也得注意辛普森悖论。(4-15
答案解析
● 其中确定指标中比较关键的是要确定评价指标和护栏指标,评价指标就是驱动公司实现核心价值的指标,要具有可归因性、可测量性、敏感性和稳定性;护栏指标也就是辅助指标
● 确定实验单位有从用户层面、访问层面和页面层面进行考虑的情况,用户层面适用于易被用户察觉的变化实验,访问和页面层面适用于不易被用户察觉的变化实验;从用户层面到页面层面实验粒度越来越细,累计的样本量也越来越多
● 计算样本量,需要预先确认以下数值:显著性水平、功效、实验组和对照组的综合方差以及期望的最小差值。实验组和对照组数据量最好均分,非均分的时候只有相对较小的组达到最小样本量,实验结果才可能显著,并不是说实验组越大越好,因为瓶颈是在样本量较小的对照组上,所以实验组和对照组的样本量最好相同
==这里写了计算样本量的细节,得先确定好α,β,AB两组的综合方差和期望最小值;AB两组最好是均分,不均分的话,两组也得都满足最小样本量,有点类似木桶短板,并不是说哪一组越大越好,而是看最小的那一组。(4-15
● 分析测试结果的时候要注意辛普森悖论等问题,而且要保证样本达到足够的量、检验是否在正常的波动范围内
==样本量要够,波动要正常(4.15
3.自变量是不良体验反馈,因变量是留存率,方法论是ABtest,二者相关性该注意什么?(滴滴)
参考答案
需要注意可能存在幸存者偏差现象。有些用户在有不良体验后会进行反馈,这种反馈在一定程度上可能解释了用户留存率下降的原因,但同时应该注意到,能进行反馈的用户通常是对平台有感情的用户,希望能通过反馈改善平台环境,继而留下来;很多真正失望的用户可能一言不发便直接流失,所以可能出现不良反馈的数量减少但留存率却下降的情况。
==这个厉害了,仔细想想的确是,这是幸存者偏差现象,真正不喜欢的直接卸载了,哪还会留下反馈,有感情的参会留下了反馈。
==其他场景也可能出现这种幸存者偏差,就是不好的反馈减少了,但是留存率依旧下降。(4.15
4.AB Test有什么缺点?(滴滴)
参考答案
(1)制作AB版本的开发、数据收集的工作量较大、以及后期维护成本增加,ROI低;
(2)AB测试受场景限制,产品版本发布后,无法增加或更改AB测试场景;
(3)通常应用于短期即刻行为,不适用与需要很长时间才能验证的测试;
(4)需要的用户人数多,要有足够的样本量。
==首先就是开发要钱,工作量也大,投资回报率低;ABtest的使用场景有限制;对于长时间才能验证的假设难以奏效;对用户量有要求
==因为本身就是一次测试,看看新方案的效果,若是效果差,投资就拿不回来了;然后就是AB测试一旦上线就不好再改了;并且只能短期。(4.15
5.AB测试在什么平台上进行?介绍一下主要步骤?(字节跳动)
参考答案
(1)定义策略:确定分流的目的、放量规模、递增的频率、回滚的策略等;
(2)筛选用户:确定分流访问的用户特征,定义规则(根据IP,user_id,cookie,业务需求(商户)等因素,指定分流策略)或导入名单;
(3)访问分流:技术支撑,根据分流策略向用户展示不同内容;
(4)发布运行:根据不同的实现方案进行部署;
(5)采集分析:收集数据,比较不同的方案效果,确定最终方案。
==这里写的主要是分流那步,我也奇怪为啥前面没写呢?分流就是对不同的用户使用两组方案,应该再计算样本量之后。(4.15
参考答案
假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立;假设有原假设,备择假设;检验方式有单侧检验和双侧检验;其步骤通常为:提出原假设与备择假设;从所研究总体中出抽取一个随机样本;构造检验统计量;根据显著性水平确定拒绝域临界值;计算检验统计量与临界值进行比较。
==这里解释的很精髓了,就是先对总体提出一个假设值,然后利用样本信息来判断假设是否成立。
==假设有原假设和备择假设,检验方式也有单侧检验和双侧检验,从总体中抽取一个随机样本,构造检验统计量,根据显著性水平来构造拒绝域,判断统计量和拒绝域即可。
2、AB实验实例,假设检验的应用(拼多多)
参考答案
案例分析:
某网网站优化了商品详情⻚,现在新旧两个版本同时运行,新版页面覆盖了10%的⽤户,旧版覆盖90%的⽤户。现在需要了解,新版页面是否能够提⾼商品详情页到支付页的转化率,并决定是否要覆盖旧版,你能为决策提供哪些信息,需要收集哪些指标,给出统计方法及过程。
==这里就是ABtst的实际应用,可以仔细学习一下
1.收集指标,建立指标体系
宏观KPI指标:GMV,订单量等,衡量业务增长用户体验辅助指标:页面点击率,页面平均停留时长,跳出率等,量化用户行为,判断实验对⽤户体验的影响实验预期提升指标:商详转化率
==指标上面主要还是两类,核心指标和辅助指标,核心指标就是GMV,订单数之类和钱直接相关的;辅助指标就是点击率,页面停留时间之类的。
==此外这里还有第三类指标,就是这次ABtest的核心问题,新版本的详情页到支付页的转化率。
==这里得先确定目标,其实就是多赚钱呗,提升宏观的KPI(关键业绩指标),GMV,订单数,这个是从平台角度分析的,对于用户来说,舒服就是第一指标,可以通过页面点击率,停留时长,转化率来判断,以此来量化用户侧的信息。(4.15
2.分配流量,AA实验
实际AB实验中可能出现抽样不均的情况,例如实验组恰好有很多土豪,那么结果就会产生偏差,为了保证实验数据的变化仅仅是实验本身引起的,可以⼀次性抽取4,5组流量,选择任意两组不加策略空跑,监控核心指标数据,选取两组数据最接近的上实验(控制变量)
==这个就是分配流量的问题,AB测试要有效果,那么其测试人群就得有代表性,为了保证这点,可以一次性多抽几组,任选两组不加策略空跑,看核心指标,然后选两组最接近的上实验。
==其实是抽样本的问题,保证公平有效。(4.15
3.假设检验
(1)通过确定实验周期(⼀般为7天),可以通过用户使⽤频率来判断产品周期
(2)确定实验所需样本量
如何决定样本的数量?太多了会浪费很多资源,太少了会因为统计灵敏度太低而得到不显著的结论。
利用第⼀类错误α不超过5%,即Significance Level(显著性⽔平) = 5%。
第⼆类错误β不超过20%,即Statistical Power(统计功效) = 1 -β = 80%
直观上理解,AB两组即使有差异,也不⼀定能被你观测出来,必须保证⼀定的条件(比如样本要充⾜)才能使你观测出统计量之间的差异; 而统计功效就是当AB两组实际有差异时,能被我们检测出来差异的概率(当备择假设为真,我们接受的概率)
==这里详细的说了一下和的含义,前者是显著性水平,也是统计的灵敏度,后者就是统计功效,即当两者有差异时,能被我们检测出来的概率。
==这里说的假设检验有两个要点,一是时间,根据用户使用频率来确定,一般为7天,另一个就是样本量(4.15
AB实验时,要同时满足,且相对差值满足阈值条件。(相对差值:绝对差值对照组均值 >= 阈值) 相当于在部分情况下,要更小的P值才能拒绝原假设。 会使⼀类错误概率降低,⼆类错误概率提⾼。 要使⼆类错误概率不过高,可以通过增加样本量来解决。
4.决策方案
结论给出:正收益,负收益,持平
—正收益:确定发布新版本。本次页面改进在显著性⽔平内,证明了‘转化率提升的假设’。并且收益提升率达到预期⽔平。进⼀步验证实验是否正确-实验反转当得出实验正向结论后,将实验反转,对照组变成实验组,实验组变成对照组。
原因:反转实验能够验证实验数据的差别是由实验本身引起的。但需要注意的是,建议只在实验为正向收益时反转实验。如果收益为负,反转实验,只会多损伤原对照组的⽤户体验。
==就是结果好,满足了预期的水平,可以反转下实验组和对照组,来进一步确认。
具体做法:举个例子,实验目的为“按钮大小对该按钮点击率的影响”。A 组流量按钮变⼤,B 组为对照组,按钮大小正常,数据显示A组的按钮点击率升高,效果更好.在反转试验中,A 组流量按钮回复正常,B组变为实验组,按钮变⼤。如果此时数据显示B组按钮点击率升高,说明按钮大小对点击率有影响。
—负收益:优化迭代方案重新开发,本次页面改进在显著性⽔平内,核⼼指标负向变化显著。
—持平:调整分流比例继续测试
==就是没变化,可能是样本空间不足,这里调整分流比例不放弃。
==三个结果,分别为正收益,负收益和不变。
正收益就再反转测试一遍,没问题就可以考虑正式上线了
负收益就记录下,供以后优化做参考
持平就调整下分流比例(4.15
1.本次页面改进不显著无法证明‘转化率提升的假设’。分析原因可能是新版本样本空间不足。
2.产品变化本身收益不明显
3、假设检验的原理和步骤(贝壳找房)
参考答案
假设检验的原理:
小概率事件原理,小概率事件在一次实验中基本是不可能发生的,而一旦发生就有充分的理由拒绝原假设。去证明假设是错误的,从而反证假设的另一面很可能是正确的,运用的是反证法。
==本质上就是反证法,如果和原假设对立的小概率事件都发生了,倒推原假设没有成立
假设检验的步骤:
步骤:
确定原假设和备择假设
确定适当的检验统计量,并计算其数值。选择哪个统计量作为检验统计量需要考虑一些因素,例如进行检验的样本量多还是少,总体标准差是已知还是未知等等
最后看这个数据是落在接受域还是拒绝域,如果落在接受域则接受原假设,如果落在拒绝域则接受备择假设
4、参数估计和假设检验分别是什么?区别在哪里?(广联达)
参考答案及解析
● 假设检验在工作之后更重要的一个应用就是AB实验。AB实验是快速验证策略是否有效的方法,其中涉及的大量统计学知识以及实验步骤:确定目标及假设、确定指标、确定实验单位、样本量估算、测试时间估算、实施测试、分析测试结果等
● 参数估计和假设检验的联系是:
○ 参数估计和假设检验都是样本去估计总体,都是建立在概率基础上的统计,可以相互转换
==参数估计和假设检验都是用样本估计总体
● 参数估计和假设检验的区别是:
○ 参数估计是用样本统计量估计总体参数的方法;假设检验是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立
○ 参数估计是以置信区间(大概率)估计总体参数;假设检验是利用小概率事件是否发生来判断假设是否成立
==参数估计是用样本的值来估计总体的参数;假设检验是利用小概率事件来判断假设是否成立。
5、实习内容中:假设、验证涉及的假设检验、a/btest(猿辅导)
参考答案
假设检验:假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立;假设有原假设,备择假设;检验方式有单侧检验和双侧检验;其步骤通常为:提出原假设与备择假设;从所研究总体中出抽取一个随机样本;构造检验统计量;根据显著性水平确定拒绝域临界值;计算检验统计量与临界值进行比较。
a/b test:流程为:1.收集指标,建立指标体系;2.分配流量,AA实验;3.假设检验;4.决策方案。
本题在解答的时候需要在参考答案的基础上结合自己的业务场景来进行解答