[TOCE] 6 P1-C2-S1 实验的执行与分析

Trustworthy Online Controlled Experiments Part 1 Chap 2


证据越匮乏,观点越盛行 (Arnold Glasow)

在第一章中,我们回顾了什么是受控实验,以及如何获取实际数据用于决策,而不是依靠直觉。这本章中的示例探讨了设计,运行和调试的基本原理, 以及如何分析实验。这些原则适用于任何软件,以及部署,包括Web服务器和浏览器,桌面应用程序,移动应用程序,游戏机,助手等。为了简单明了,我们重点介绍一个网站优化示例。在第12章中,我们重点介绍了针对胖客户端(例如本机桌面和移动应用)运行实验时的差异。

关于例子

我们的具体示例是一个虚构的在线商业网站。我们可以测试的变化范围很广:比如引入了一项新功能,用户界面(UI),后端更改等。

在我们的示例中,营销部门希望通过发送促销电子邮件,其中包含用于小部件折扣的优惠券代码。这个更改是潜在的业务模式更改,因为该公司以前没有提供优惠券。但是,该公司的一名员工最近阅读了有关Dr. Footcare的信息。在添加优惠券代码后,Footcare损失了可观的收入,另外,删除优惠券代码给 GoodUI.org 带来了积极的效果。鉴于这些外部数据,有人担心将优惠券代码字段添加到结帐会降低收入,即使没有优惠券,光是用户看到类似信息就会使得用户操作变慢,并导致他们搜索优惠代码,甚至放弃购买。

我们希望评估仅添加优惠券代码字段的影响。我们可以使用fake door或 paint door的方法。比喻是,我们弄一个假门或在墙上涂上油漆,看看有多少人试图打开它。我们实现了一个很小的更改,即将优惠券代码字段添加到结帐页面。我们没有实施真正的优惠券代码系统,因为没有可用的代码。无论用户输入什么,系统都提示:“无效的优惠券代码。” 我们的目标只是评估优惠券对收入的影响, 并评估它是否会导致人们在结账时被干扰。由于这是一个简单的更改,因此我们将测试两个UI实现。同时测试几种治疗方法很常见。在这种情况下,想法是添加优惠券代码,而实现是特定的UI更改。

这个简单的A / B测试是评估新业务模型可行性的关键步骤。

将建议的UI更改转换为假设时,将在线购物过程视为一个烟囱很有用,如图所示。客户从主页开始,浏览一些商品,将商品添加到购物车,开始购买过程,最后完成购买。当然,漏斗的想法很简单;客户很少以一致的线性方式完成这些步骤。每一步之间有很多来回回旋,而跳过中间步骤的重复访问者也是如此。但是,这种简单的模型对于通过实验设计和分析进行思考很有用,因为实验通常以改进漏斗中的特定步骤为目标。

image.png

对于我们的实验,我们在结帐页面中添加了优惠券代码字段,并且我们正在测试两个不同的UI(如图所示),并希望评估对收入的影响(如果有)。我们的假设是:“在结帐页面上添加优惠券代码字段会降低收入。”

image.png
image.png

为了衡量变更的影响,我们需要定义目标指标或成功指标。当我们只有一个时,我们可以将该指标直接用作我们的OEC(请参阅第7章)。此实验的一个显而易见的选择可能是收入。请注意,即使我们想增加总收入,我们也不建议您使用总收入本身,因为这取决于每个变体中的用户数量。即使为变体分配了相等的流量,实际的用户数量也可能由于偶然而有所不同。我们建议关键指标应通过实际样本量进行归一化,从而使每用户收入成为良好的OEC。

下一个关键问题是确定在“每用户收入”指标的分母中应考虑哪些用户:

  • 所有访问网站的用户 这是可行的;但是,有很多噪音,因为它包括从未结过帐的用户。我们知道,从未结过帐的用户不会受到我们的更改的影响。排除这些用户将导致更敏感的A / B测试(请参阅第20章)。

  • 只统计完成了购物的用户 该选择是错误的,因为它假定更改将影响购买的金额,而不影响完成购买的用户的百分比。如果购买更多的用户,则即使总收入增加,每用户收入也可能下降。

  • 统计开始了购物流程的客户 鉴于我们的UI修改在漏斗中的位置,这是最佳选择。我们包括所有可能受影响的用户,但没有稀释我们结果的未受影响用户(从未开始结帐的用户)

我们更精确的假设为 : “在结帐页面上添加优惠券代码字段会降低开始购买过程的用户的每用户收入”。

假设检验:建立统计意义

在设计,运行或分析实验之前,让我们回顾一些与统计假设检验有关的基本概念。首先,我们通过了解 均值和标准差来表示指标,换句话说,指标的估计值将有多大变化。我们需要知道可变性,以适当地确定实验的大小并在分析过程中计算统计显着性。对于大多数指标,我们测量平均值,但我们也可以选择其他汇总统计信息,例如百分位数。平均值的标准差越低,灵敏度或检测统计学上显着差异的能力就越高。通常可以通过分配更多流量或运行实验更长的时间来实现,因为用户数量通常会随着时间的推移而增长。但是,后者可能在开始的几周后就没有效果,因为重复用户会导致唯一用户增长低于线性,而某些指标本身会随着时间而“增长”.

考虑到均值相同的零假设,我们定量测试了一对 treatment sample 和 contorl sample 之间的差异是否可能。如果不太可能,我们将拒绝Null假设,并声称差异具有统计意义。具体来说,给定“控制和治疗”样本中的“每用户收入”估算值,我们将计算出差异的p值,这是观察到这种差异或假设零假设为真的更极端情况的概率。我们拒绝Null假设,并得出结论,如果p值足够小,则我们的实验会产生效果(或结果具有统计学意义)。但是多小算足够小呢?

科学标准是使用小于0.05的p值,这意味着如果确实没有效果,我们可以正确地推断出100没有效果中的95次。检查差异是否在统计上显着的另一种方法是通过检查置信区间是否与零重叠。 95%的置信区间是覆盖95%的真实差异的范围,对于相当大的样本量,通常以观察到的治疗和对照之间的差异为中心,每侧扩展1.96标准误差。

image.png

使用p值评估观察到的增量是否具有统计学意义。如果p值小于0.05,我们声明该差异具有统计学意义。下图:使用95%置信区间[Δ− 1.96σ,Δ+ 1.96σ]评估统计显着性的等效视图。如果零位于置信区间之外,则我们声明结果是显著的。

统计功效(Statistical power)是指: 在确实存在差异时检测出差异之间有意义的的概率。实际上,你希望你的实验具有足够的能力,以便能够以较高的可能性得出结论,即实验是否导致了超出您所关注范围的变化。通常,当样本数量较大时,我们会获得更大的功效。设计实验以达到80-90%的功率是一种常见的做法。第17章进一步讨论了统计细节。

尽管“统计显着性”可以帮助我们识别有意义的变化,但有统计意义不代表有实际意义。从业务的角度来看,对于每用户收入而言,多大的差异才对我们有意义?换句话说,多大的变化才重要?

建立此实质性边界对于理解差异是否值得进行更改的成本非常重要。如果您的网站(例如Google和Bing)创造了数十亿美元的收入,那么0.2%的变化实际上是非常重要的。相比之下,一家初创公司可能会认为即使2%的变化也太小,因为他们正在寻找可以提高10%或更多的变化。对于我们的示例,让我们假设,从业务角度来看,每位用户收入增长1%或更多是一项重要的变化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,980评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,422评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,130评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,553评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,408评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,326评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,720评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,373评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,678评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,722评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,486评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,335评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,738评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,283评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,692评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,893评论 2 335

推荐阅读更多精彩内容