最早接触“AB测试”这个词是在2010年翻译的一个sixrevisions的博客,可以参见底部原文链接,因为想写AB所以特意翻出来,一看之下,大量当年不理解的地方豁然开朗,后文会穿插提及。
真正将AB测试用于实际工作的,是上一份在德国OTA时候经历过的一个本地化项目。大体来说,这是一个彻底的前端改版项目,从列表页到详情页到填写页,全部根据中国当地竞品的情况重新设计,成为一个完全独立于国际主版本的分支版本。
修改点包罗万象,例如:
列表筛选从左侧移动到顶部(当时竞品是顶部);
列表页的酒店原来只显示最低价,点预定直接进填写,两页完成下单(类似一号店的直接下单),新版改为在中国满大街都是的列表页每个酒店显示多条价格,点击进入详情页,由于这一点,list一页能显示的酒店数量大大减少,后续还加入了在列表页显示不含税价这种欺骗性的中国特色功能(有时候真觉得在欧洲人面前抬不起头来);
这个版本还在详情页带上最新的华人礼遇酒店标签,这个前后端打通的漂亮细节后来不知怎么出现在了其他的网站,可能是巧合;
最后是填写页步骤缩短,增加大量汇率和文案细节。
这个当地化版本源于上一个团队多次向德国总部提交本地需求,一再没有资源,最后开大招做完全独立分支,很显然做完以后秋后算账就要看效果了。。。。(这时候我入职了)
由于无法量化某几个中国人提的所谓“本地化需求”,到底有没有实际效益,这个情景正符合AB测试所需的“没把握”的前提要求。(顺便吐个槽,上周公司培训AB测试有个案例是,如果客人填写信息时候满房,那么在返回列表页后将这个标记为满房,这种人伦常理也AB测试,真的是orz到不行。)
我们先不揭晓AB结果,单从上文内容,直觉上说,列表页的修改是比较“虚”的:筛选位置和单页产品数量多少是一直是很有争议的地方,而详情的酒店标签和填写页的本地化改进是比较“实”的,如果你也有这种直觉,欢迎发简历过来,嗯。。。。
AB结果出来,总体CR略微改善(但不足以afford独立分支巨大的维护成本),拆到各个细节,大体符合这个直觉。
翻译那篇博客里提到,大约20%的AB测试能成功就已经很不错了,当时我是不以为然的,专业的设计、研发怎么会只有20%的AB成功率呢?而这个项目在消耗极大前期调研和执行期投入的情况下,实际差不多就是20%部分成功。
在现在岗位上,失败的AB测试经历得更多,失败的程度更大,现在当然不方便细说,本文想说的是,早前翻译的文章里一句“其实失败带来的收获更多”,回头看起来,实在是无法同意更多。
反思一下AB测试的源头,我们一般是根据:行业惯例、其他项目经验、老板(看朋友圈得到)的灵感。。。之类的各种靠谱不靠谱的背景发起的需求,如果AB测试大部分都成功,那么实际上就意味着,你处于一个“只要抄别人就能成功”的环境,换句话说,只要初级的设计师+研发团队就足够的环境,这样的情况下其实只会越来越远离AB测试的“数据精益运营”的初衷,沦为汇报工具。
反过来说,AB测试的失败,是最好的触发下一步深挖的起点。
例如说,为什么“列表页的产品数量减少,价格增多”,这样的竞品普遍采用的模式,反而会降低转化率?
针对这样和预期相反的结果,以及相应的数据,后续可以很自然地走向细分各类用户的需求差异,并到达类似商务客人要求迅速大量浏览产品,而休闲客人更希望在list花很久看到更多单品信息(时至今日,这些又已经是新的行业常识),基于这些数据可以再深入做AB测试,继续验证猜测和“寻找失败”。
有没有发现,一个神奇的公式出现了:AB测试失败=创新点
AB的故事说完了,最后稍微聊出去一些:
时下的互联网,巨头已经占据了几乎所有资源:流量、人才、供应商、生态圈,我想说的是,更可怕的差距在于巨头已经做的无数的失败尝试,以及从失败中总结的经验。
对于后发的新晋闯入者来说,首先照抄是必死无疑的,我相信qq在游戏、社交数据运营,ali在p4p运营,baidu在ctr预测和准度优化方面的试错积累已经无法逾越(而且逾越起来也并不经济);然而后发有后发的优势,由于巨头已经相当成熟,人才流动势必将大量常识性的知识外溢,如果将国内一线的模式搬到三四线、搬到国外,通过AB测试“寻找失败”,寻找创新点,就有可能站在巨人的肩膀上实现创新,在缝隙里打开创业的窗口。
娃要洗澡了就先写那么多了,谢谢能读到这里的朋友。