[TOCE] 8 P1-C2-S3 实验的执行与分析

Trustworthy Online Controlled Experiments Part 1 Chap 2


对实验结果的解释

实验结束以后, 就可以拿到实验数据了, 但是在实际使用数据之前,需要先确认一下,数据是否正确。

有很多原因会导致实验失败。 为了发现这些错误, 我们可以使用防护指标(guardrail metrics) 或者 不变量(invariants)。 这些指标在控制组和治疗组之间不应变化。如果它们发生变化,则可能来自于一些意想不到更改,而不是被测试功能变化的结果。

有两类不变量(invariants)

  1. 与信任相关的防护指标(Trust-related guardrail metrics),例如,预期“控制”和“处理”样本数量将根据配置进行大小调整,或者具有相同的命中率。

  2. 组织防护指标(Organizational guardrail metrics)(例如延迟)对组织很重要,并且有望在许多实验中保持不变。在结帐实验中,如果延迟发生变化,将是非常令人惊讶的。

如果这些检查失败了, 则需要去检查实验执行, 设计中的问题。 如果成功了, 则可以进入下一步的工作。

假设, 我们得到了如下的结果:

image.png

因为 p 值小于 0.05, 所以我们拒绝原假设, 即控制组和治疗组的均值相同。

那么这是什么意思?这意味着我们确认了向用户界面添加优惠券代码会减少收入。如果我们进一步研究数字,结果表明减少的原因是完成购买过程的用户减少了。营销模型估计了目标用户的收入有小幅增长,但是A / B测试显示所有用户的收入均大幅下降,因此, 公司决定放弃引入促销代码的想法。A / B测试节省了公司大量的精力!

从结果到决策

运行A / B测试的目的是收集数据以推动决策。我们需要做很多的工作,以确保结果可重复,且值得信赖。 只有这样,我们才能依据这些数据做出正确的决定。让我们逐步了解可能出现的几种不同情况的决策过程。对于每种情况,我们都有实验的结果,我们的目标是将结果转换为启动/不启动的决策。强调决策制定部分的原因是,决策需要同时考虑 A/B 测试的结果和更多的其他因素,例如:

  • 如何在不同的指标之间做取舍。 比如用户参与度增加了,但是收入减少了。 或者CPU 利用率增加了, 但是实际的收益小于实施项目的成本。

  • 部署一个改变/功能的成本包括:

    • 在部署之前,完成功能开发能所需的成本。在实验阶段,某些功能可能已经完全被开发出来。在这种情况下,部署的成本为零。但是情况并非总是如此。如在我们的示例中,一个假的优惠券系统很坚定,但是实施完整的优惠券系统的成本却很昂贵。
    • 部署后工程维护的成本,因为维护新代码的成本可能很高。新的编解码器可能具有更多的错误,并且没有针对边缘案例进行良好的测试。如果新代码引入了更多的复杂性,则可能还会增加摩擦和成本以在其之上进行新的更改。如果成本很高,则必须确保预期的收益能够覆盖它。在这种情况下,确保实际收益足够高以覆盖这一点。相反,如果成本较低甚至为零,则可以选择启动任何正的变化,换句话说,边界很低。
    • 做出错误决定的代价是什么?并非所有决定都是平等的,并非所有错误都是等值的。发起没有影响的修改可能没有任何负面影响,但是如果我们放弃有影响的修改,则机会成本可能很高,反之亦然。例如,正在网站上测试两个可能的标题,标题仅会保留几天。在这种情况下,做出错误决定的负面影响很低,因为更改的时间很短。在这种情况下,可能愿意降低统计和实际意义上的标准。

在构建统计和实际重要性阈值时,需要考虑因素。从实验结果到决策或行动,这些阈值至关重要。假设我们在实验开始之前已经决定阈值,那么让我们看看下图的示例。 这个例子说明了如何使用这些阈值来指导我们的决策。

image.png

图中心实体竖线代表0轴, 两个虚线代表实际意义阈值。每个黑色小方块代表预估效果的点估计, 整个线段代表置信区间。

  1. 这种情况最简单, 置信区间跨越0轴, 实验结果没有统计意义, 要么重新做实验,要么放弃修改。

  2. 这种情况也很简单, 统计和实际意义都明显正面, 执行修改就好。

  3. 有统计意义,但是没有实际意义。 需要在重新考虑一下, 或者权衡一下利弊。 一般来说是不执行改变。

  4. 这种情况一般是数据太少, 没法发现有实际意义的效果。 如果期待的结果比较有价值, 可以考虑收集更多的数据。

  5. 没有统计意义, 但是有实际意义。 这种情况貌似可以执行, 但是出于谨慎起见, 最好还是放弃。 如果真的想执行改变, 可以继续收集收据, 以获得更准确的结论。

  6. 有统计意义, 没有实际意义。 处理方式类似5.

要记住的关键是,尽管当时可能没有明确的答案,但有时还是需要做出决定。在这些情况下,需要明确说明正在考虑的因素,尤其是它们将如何转化为实际和统计上的显着性边界。这将成为未来决策的基础,而不仅仅是当前决策。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,980评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,422评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,130评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,553评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,408评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,326评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,720评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,373评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,678评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,722评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,486评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,335评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,738评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,283评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,692评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,893评论 2 335

推荐阅读更多精彩内容