第3章:Twyman 法则 以及 实验可信程度 || 《可信的线上受控实验 》|| Trustworthy online controlled experiments

Twyman法则:数据越不寻常或越有趣,越可能存在错误。

1. 对统计结果的一些错误解释(misinterpretation)

缺乏统计功效(β)

  • 功效释义:如果确实存在假设差异,差异在当前样本量下被检测到的概率。
  • 如果实验效果只对部分用户生效,那么只关注这部分用户的指标是很重要的。因为即使对生效用户产生极大效果的改动,稀释到全局也会效果极为微小。

误解了p值

  • p值正确含义:假设原假设正确的情况下,得到与实验相等或更极端的结果的概率。
  • 常见误解1:p=0.05代表原假设只有0.05的概率为真
  • 常见误解2:实验结果不显著(p>0.05)表示组别间无差异
    • 释义:置信区间内的任何值都有可能。
  • 常见误解3:p=0.05表示
  • 常见误解4:p=0.05表示错误拒绝原假设(false positive)的概率是0.05。
    • 书中释义:计算FP(p<0.05且原假设仍为真)的概率,需要一些先验概率并使用贝叶斯定理计算。
    • 过往的常见说法:实现会定义显著性水平(significant level)记作α,在实验开始前,α就是第一类错误的概率。(如果假设检验结论拒绝H0,发生I型错误的概率为5%或1%,即100次拒绝H0的结论中,平均有5次或1次是错误的。)
    • 个人理解:置信水平是在实验前设置的参数,而p是实验结束后计算得到的指标值。而书中表示的应该是实验结束后已经计算得到p值,根据目前的信息,假正率是多少。

p值偷窥:持续观察p值,并在p值小于

  • 有一些支持持续观察p值的方法:《Continuous Monitoring of A/B Tests without Pain: Optional Stopping in Bayesian Testing》
  • 互联网公司一般提前计算好需要的样本量和运行时长,比如整周等。

多重假设检验:多重比较问题

一些常见的错误:

  1. 观察多个指标(其中一个有效就认为实验能提升这个指标)
  2. p值偷窥
  3. 观察部分用户,比如只观察特定国家,性别,活跃度分组用户。
  4. 观察一连串的实验

(CHAP17如何解决多重测试的问题)

2. 置信区间

  • 释义:量化实验效应,而置信水平表示置信区间需要涵盖多宽的实验效应。对于两组无差异的原假设,如果95%的置信区间不包含0,则说明p<0.05。
  • 常见的两个误解:
    1. 分开看实验组和对照组,如果对照和实验两组的置信区间有重叠,则说明两者没有显著差异。
    2. 95%的置信区间表示进行多次实验,有95%的比例会包含真正的实验影响值。对于特定的一次实验,要么包含,要么不包含。

3. 内部有效性的一些威胁

内部有效性的含义

  • 不推广人群和时间,只论当前实验涵盖人群和时间的有效性。

SUTVA的不稳定

  • SUTVA (Stable Unit Treatment Value Assumption):实验单位不收其他用户的影响的假设。

  • 影响该假设的的一些情况

    • 社交网络的泄露(给特定用户发券在社交网络传播)
    • IM软件:微信表情新特性对ios特定版本用户开放,会影响到非开放用户的信息数等。
    • 有协作能力的SaaS:飞书,腾讯文档等。
    • 双边市场:咸鱼,滴滴。比如给滴滴部分用户发券会可能导致被发券用户提升消费量,而滴滴可用车减小,价格上升,对照组用户成功下单量减小等。
    • 资源共享的情况:实验组上线新特性,后台资源问题导致全部用户的加载时间变长。

    (chap22介绍处理这些问题的方法)

幸存者偏差

  • 分析活跃了一段时间的用户会带来幸存者偏差。

治疗意向效应(intetion-to-treat)

  • 源自医学治疗,如果用户因为知晓副作用等因素选择不进行治疗,如果最终只分析接受治疗的病人,那么则会带来选择偏差。为避免效应,可以分析提供了治疗建议的全部用户而非受疗用户。

样本比率偏差问题(Sample Ratio Mismatch, SRM)

  • 实验组进行重导向(页面跳转)
    • 造成SRM的原因
      1. 性能表现差异,页面跳转回需要更多的时间以及存在跳转失败的问题。
      2. Bots,部分机器人可能不在http-equiv="refresh"的页面跳转,或者检测到新页面后,更高频地访问新页面。
    • 解决办法
      1. 服务端解决。
      2. 如果没法在服务端解决,则对两组都同样进行重定位。
  • 有损的数据收集组件
    • 举例:同一个组件(比如信用卡付款广告)放在首页和付款页,可能因为首页表现较差,导致首页的点击被收集/成功曝光/加载时机等原因,最终导致SRM。
  • 遗留效应
    • 新特性上线存在bug, bug即使修复已经影响用户体验。
    • 实验组的用户受到之前实验策略的影响,表现与对照组不同。
    • 解决方案:A/A实验和主动重随机分配。
  • 较差的Hash系统
  • 实验策略引起的SRM
    • 假如给超过三个月未活跃用户发放优惠券邮件提醒,该策略有效。那么下次迭代就会受到SRM影响。(z:不会进行re-randomize吗?)
  • 不同时段的带来的差异
    • 策略下放的时间不同会带来差异,比如美团外卖在下午四点和6点分别在两组发放5元优惠券和10元优惠券,一比较最后的revenue-per-user
  • 数据清洗带来的影响。
    • 一般数据清洗都会有一些基于过去经验的过滤条件,比如播放时长大于特定值的播放上报被过滤,但实验组的新特性可能导致这些过滤条件失效,最终导致实验组部分真实用户的数据被滤除。

4. 对外部有效性的威胁

外部有效性的含义

  • 实验效果能否在人群和时间维度扩展的情况下,依然有效

人群扩展的效果确认方法

  • 新的实验

时间维度的拓展

时间维度的拓展通常通过延长实验的时长至数月(保留1%的对照组)来观察。导致时间维度偏差的两大因素是首要效应和新奇效应。

  • 首要效应(primacy effect,个人理解应该叫先前效应)
    • 用户对于产品改变需要适应时间,可能用户更加依赖之前产品的使用方法和路径。
  • 新奇效应
    • 含义:当引入新feature时,尤其是比较容易注意的改动,在一开始人们会好奇这是什么而去使用它,但这种参与度是没法持久的。
    • 解决方法
      1. 绘制用户按时间的参与度,以观察是否存在衰减趋势。如果明显衰减,可以延长时间以观察趋于平缓后是否仍然存在显著效果。
      2. CHAP23介绍更多新奇效应的内容

5. 人群差异

一些不错的分组方法(维度)

  1. 地理位置:国家,地区,语言。
  2. 设备或平台:系统平台:ios/android,手机品牌,浏览器种类,app版本等。
  3. 时间:time of day/ day of week
  4. 用户类型:活跃度,是否新用户
  5. 用户属性:Netflix个人账户或家庭账户等

z:这些维度也是在非a/b实验的平常数据监控和展示时常关注的。

实验中分组查看数据常有两种方法:

  1. 不分A/B对比各组的汇总数据:不同平台的CTR。
  2. 分A/B组查看各组的数据
    1. 这种方式可以带来更多的见解和发现,譬如新上的功能对新用户的留存促进显著而对老用户无显著作用,且整体无显著作用。

分组分析可能会带来误解

  • 举例了用户在不同组别间的流动。
  • 因此,分组的特征最好是比较固定的,不会流动,至少保证不受实验因素而改动。

辛普森悖论

定义

  • 在某个条件下的两组数据,分别讨论都会满足某种性质,可一旦合并考虑却会导致相反的结论。

特点

  • 整体被分配到两个组别时,在分组的特征上两组的分布是不均衡的。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,898评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,401评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,058评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,539评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,382评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,319评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,706评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,370评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,664评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,715评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,476评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,326评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,730评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,003评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,275评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,683评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,877评论 2 335

推荐阅读更多精彩内容