上一篇谈到依据经验的推论会有很多有效的结果,同时也会产生谬误。而这些谬误长时间流传,直到发生了可证实其错误的事件(比如人们认为天鹅是白色的,直到发现了黑天鹅),或者有人通过量化的方式对其进行论证。比如在医学界,哈佛大学医学院院长Sydney Burwell医生曾告诫学生“在10年之内,作为医学生的你们学到的一半知识都会被证明是错误的;而且麻烦的是没有老师能够告诉你哪一半是错误的”。证析一书中就提到了几个医学方面的迷信。到了1992年,出现了循证医学这个词。医学界通过综合过于的研究和病理来知道医生对病人的诊断。这是一个专业领域,也是大数据在医学界应用的方向之一。
这里扯了这么多,还是希望说明A/B测试是“基于证据的决策”的一种基本手段,其思考方式以及操作方法有广泛的应用。
近些年A/B测试有了长足的发展,主要还是因为互联网的发展促成了对营销、网站设计等方面的用户行为监测方法让A/B测试实施门槛降低。其实在互联网时代之前,企业就在应用这一思路。比如典型的广告创意或者概念测试中,专业研究公司会邀请两群背景特征一致(通过配额控制)的消费者看两个广告或产品概念,然后通过被访者的评价来选择更有市场潜力的广告或概念。到了互联网时代,就不需要这么费劲了。邮件、广告创意、app上的每一个创意和按钮的设计都可以通过A/B测试进行选择和优化。
但是A/B测试看起来简单,在应用中也有挑战和陷阱。
第一,假测试之名“说事”。我曾经见到过一个测试报告说某个广告的设计比原设计的点击率高6倍。然后老板就很喜大普奔,然后就批准了这个设计方案。我细了解了这个测试,发现测试条件非常随意,无法下点击率高6倍的结论。这个测试的作用加速了老板做决策,从效率提升的角度未尝不是一个好事情。这是一个典型的用数据“说事”的案例,数据成为神仙打架的工具。有此风气的企业无法建立基于数据的决策流程和文化。
第二, 如何将A/B测试纳入业务流程。A/B测试不是简单收集一些数据就可以完成并发挥作用的,需要有明确业务目标并且业务部门参与甚至主导。举上一篇文章通过A/B测试优化直邮广告来说。销售部门需要提前设计好不同的文案,不同彩页上要安排印刷不同的文案,需要监测不同文案对应的电话呼入量,得到结果后需要及时调整。一家公司中,如果高层不去推动这个事情,或者业务部门没有形成这套流程,有想法的独立研究团队搞不定这个事情的。
第三,A/B测试的管理。 当用了几次测试感觉不错,就可以广泛的使用这种方法。数量增加会带来新的问题。如何能够快速部署,减少实施成本;如何能够从过去项目中提取经验,不需要每次必做测试。 举一个美国的例子。Capital One是一家美国信用卡公司,他一年要实施数以万计的实验,对新产品、新广告模式、新业务模式等各个问题进行研究。那么如何管理这些实验结果也是Capital One面临的一个挑战。Capital One维护了一个内部知识库记录每次实验结果,当业务人员需要完成一个任务时,例如设计新的信用卡,他们能够从知识库中搜索相关实验结果以指导工作。但是,很明显,这样的知识库使用起来很不方便,Capital One准备以适时(Just-in-time)的方式将实验结果提供给业务人员。例如,业务人员在针对某个特定人群设计一种新的信用卡时,系统能够在设计的每个阶段根据实验结果对业务人员从利率设计到直邮时使用的信封颜色方方面面的考虑提出建议。(《证析》)
从我看到的资料看,国外的一些互联网、数字营销、数据库营销公司这方面做得非常成熟。国内企业不是很清楚在这方面哪家做的不错。如果有熟悉的朋友可以和大家分享。
由于需求不断增加,现在已经发展出来一些提供A/B测试专业产品的创新企业。比如GrowthGiant (连续 A/B 测试工具),Spinnakr (A/B 测试内容工具,可向不同用户展现不同消息),leanplum(移动端的A/B 测试解决方案),google的Google Website Optimizer。需要的同学可以持续关注或者进行试用。互联网时代,分工会越来越细,可以多使用一些专业的工具型产品。这样可以避免重复发明轮子,而且可以低成本用上专业工具,大大提升效率。
推荐一篇文章,有很多执行细节。“不测量,无市场”:A/B测试怎么做?http://www.36kr.com/p/142809.html
更多的A/B测试细节,大家可以在google上搜索一下。一些专业博客和大公司的UED或其他部门博客都有很详细的介绍可以参考。这些资料大都是互联网领域的,你要是牛的话去把A/B测试用在传统领域当中,相信会产生很大价值。
看似简单的A/B测试做好很难。最难之处不是技术,而是企业是否有数据驱动、基于证据进行决策的文化。 如果你所在的企业不具备这些条件也不要着急,从自己可以影响的范围内一点一点做起来。念念不忘,必有回响。