[TOCE] 7 P1-C2-S2 实验的执行与分析

Trustworthy Online Controlled Experiments Part 1 Chap 2


实验设计

现在,我们可以设计实验了。我们有一个假设,一个实际意义上的边界,一个指标度量。我们将使用它们来完成设计:

  1. 随机单元是什么 ?
  2. 我们的目标单元是什么?
  3. 实验规模有多大?
  4. 实验时间有多长?

目前, 假设我们的随机单元是每个用户, 这是最常见的情况。 在Chap14中, 我们会介绍其他情况。

针对特定人群意味着你只想为具有特定特征的用户运行实验。例如,测试新文本,但只有几种语言的新文本;在这种情况下,只能将界面语言环境设置为这些语言的用户作为目标。其他常见的定位属性包括地理区域,平台和设备类型

实验规模

我们的示例假设我们以所有用户为目标。实验的规模(对我们来说,是用户数量)直接影响结果的准确性。如果希望检测出较小的变化或对结论更加自信,则需要较大的实验。这是一些可能决定样本大小(实验规模)的因素:

  • 如果我们使用购买指标(只考虑用户是否购买了,而不考虑金额),而不是将每位用户收入作为我们的OEC,则标准误会变小,这意味着我们可以用小规模实验。

  • 如果我们提高实际意义水平,比如说我们不再关心1%的变化,而只关心较大的变化,则可以减小样本大小,因为较大的变化更易于检测。

  • 如果我们想使用较低的p值阈值(例如0.01)来更确定在拒绝Null假设之前发生了变化,则需要增加样本量。

  • 实验有多安全?对于大型更改,如果不确定用户的反应,则可能首先要从较小比例的用户开始。该原理不应影响最终实验规模的选择,而可能会影响加速策略(有关更多详细信息,请参见第15章)。

  • 此实验是否需要与其他实验共享流量,如果需要,如何平衡流量需求?在较高的级别上,如果要测试其他更改,则可以选择同时运行或顺序运行这些更改。如果必须在多个同时进行的测试之间分配流量,则每个测试最终都会产生较少的流量。在第4章中,我们讨论了以单层或重叠的方式运行测试,更重要的是,如何构建适当的基础结构来扩展实验。

实验时间

另外一个需要关注的是实验时间, 可能影响因素有:

  • 更多的用户:在线实验中,由于用户会随着时间的流逝而进入实验,因此实验运行的时间越长,实验获得的用户越多。这通常会提高统计能力(如果要衡量的指标积累起来(例如会话数),但如果方差也会增加,则会发生例外;有关详细信息,请参见第18章)。考虑到同一位用户可能会重复访问,因此随着时间的推移,用户累积率也可能是非线性的:如果在第一天有N位用户,那么两天后的用户数将少于2N,因为有些用户在这两天都访问过。

  • 星期几效应:周末的用户数量可能不同于工作日的用户数量。即使是同一用户,其行为也可能有所不同。确保您的实验捕获每周周期非常重要。我们建议进行至少一星期的实验。

  • 季节性:用户可能还会有其他行为重要的考虑因素,例如假期。如果你拥有全球用户群,美国以及美国以外的假期都可能产生影响。例如,销售礼品卡可能会在圣诞节的季节,但一年中其他时间的情况则不太理想。 这叫做 外部有效性, 即实验结果泛化性。在这里, 指的是实验结果对所有日子的有效性。

  • 首要效应和新奇效应:有些实验倾向于具有较大或较小的初始效应,需要花费一些时间才能稳定下来。例如,用户可能尝试使用一个新的闪亮按钮,但发现它没有用,因此该按钮的点击次数会随着时间的流逝而减少。另一方面,需要采用的功能需要花费一些时间来建立用户基础。

这是我们已经确定下来的其他实验参数:

  1. 随机单元是用户
  2. 我们追踪所有客户,并且分析哪些访问了“结算”页面的客户
  3. 为了拥有80%的power 来检测每位用户收入的至少1%的变化,我们将进行power 分析以确定规模。
  4. 这意味着至少要进行四天的实验,对照/治疗一/治疗二之间的分配比例为34/33/33%。我们将进行为期一周的实验,以确保我们了解星期几的影响,如果发现首要效应和新奇效应,则可能需要更长的时间。

一般而言,建议实际的power 大于理论最小power,甚至我们推荐这样做,因为有时我们需要检查细分市场(例如地理区域或平台),并确保实验具有足够的power来检测多个关键指标的变化。例如,我们需要有足够的power来检测所有用户的收入影响,但是如果我们只想查看加拿大的用户,则没有足够的power。还要注意,尽管我们只要求对照和治疗大小近似相等,但是如果治疗数量增加,则应该考虑增加对照组的规模。(有关更多讨论,请参见第18章)。

运行实验获取数据

现在让我们进行实验并收集必要的数据。在这里,我们给你一个简要介绍所涉及的各个部分,在第4章中深入研究详细内容。

为了运行实验, 我们需要

  • 实验工具: 获取用户登录信息, 捕获用户行为
  • 基础设施: 能够运行实验,从实验配置,到变量选择。

完成实验并使用必要的仪器收集日志数据后,就可以处理数据,计算摘要统计信息并可视化结果了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容