本文翻译自medium的文章How Netflix does A/B Testing,为了更好理解,一些地方没有按原文来,而是用我自己的语言,感兴趣的可以直接看原文。另外,图片直接从原文拉过来的,侵权删。
文章的一开始是一些客套话,我就不翻译了,大致意思是作者参加了一个活动,活动中两个Netflix的产品设计师(product designers)做了关于A/B测试的分享,这篇文章就是作者听完之后的一些总结和思考。
首先提了一个“实验”的概念,用了“绝命毒师”的图片来解释什么是实验。确实很生动形象,也和Netflix搭上勾。这个概念很简单,以至于作者就说了她很喜欢这张幻灯片,觉得这个比喻很机智,然后就没有了。之后提了一个“科学的方法”,应该就是指A/B测试是一种科学的方法。
第三个概念是假设(Hypothesis),或者说猜想。在科学上,是指一个想法或者解释,之后可以通过分析和实验对其进行验证。在设计中,往往指的是一种理论或者猜测。假设的基本特征是事先不知道最后的结果是什么,但是可以通过实验得出,而且实验是可以被重复。就像韩春雨。
所谓的A/B测试,就是设置两组或者多组用户进行测试,其中一组为控制组,其余的为实验组。控制组使用的版本一般是默认的,或者说是原来的,没有修改的,跟其他普通的没有参与测试的用户的版本一致。而实验组的使用的版本则是修改过的。每个用户只能加入一个组。
测试进行时,需要跟踪一些重要的指标,比如时间流(streaming hours),留存率(retention)等,一旦参与者提供的数据足够得出有意义的结论,就可以在各个不同的组之间进行对比,以此来判断哪个组的表现更好,就像下面这种图,在test1中,第二个实验组表现最后,称为winner,胜利者。
公司需要通过实验来获取用户数据,因此,花费一定的时间和精力对实验方法进行整理以确保获取的数据在类型和数量上能满足要求,这样数据才能尽可能有效地解决相应的问题。如果你有注意的话,每次登陆Netflix,主页的显示是不同的,这其实就是Netflix的实验之一,用来确保你收看他们的节目。就像Netflix的一位工程师说的,如果你不能在90秒内引起用户的注意力,用户就会失去兴趣并转移到另外的活动上去。这种情况可能是由于网站没有展示出正确的内容,也有可能是展示出正确的内容,但是没有提供足够的吸引力来让读者觉得自己应该收看这个节目。
这种情况下,就可以通过A/B测试进行实验,判断出真实的原因。
早在2013年,Netflix就做了实验去验证不同的背景图像是否对观看者的数量有影响,结论是肯定的,如下图。
Netflix之后还开发了一个系统,可以自动将具有相同背景,但有不同的长宽比、裁剪、小装饰、标题的位置等的各个图像组合在一起,然后可以在其他不同的电视节目中追踪这些作品的表现。下面是一些例子,其中有绿色箭头的是表现比较好的。
最后是作者写的几点自己的体会。
1、什么时候,为什么使用A/B测试
当你的设计方案进入开发环节的时候,就可以使用A/B测试来调整设计方案,同时关注两个关键的指标:留存率和利润。在A/B测试中,对产品做出一些改变,然后追踪用户的使用情况,看是否这个改变能够提高留存率和收入,如果可以,就确认在产品中使用这个改变,反之,则尝试别的修改方案。这样不断通过A/B测试,就可以持续提高产品的商业指标。
2、用户发现的内容或进行的操作是不是你希望他们去发现或者去做的。
很多时候用户不能想你期望的那样快速完成任务,有时候他们会找不到你放在页面上的按钮。原因可以有很多,可能是这个设计不够直观,颜色不够鲜艳,或者是技术不够娴熟,不知道怎么在一个页面的众多选项中做出决定等等。
3、你的直觉是否正确
不幸的是,在预测用户行为方面,我们的直觉可能是错误的,唯一可以证明的方法就是通过A/B测试,这是用来验证一个用户体验设计方案是否比另一个更加有效的最好的办法。这种说法在工作中得到了验证。举个例子,有一次我们想验证是否能够通过一些设计上的改变,从而提高用户点击广告之后的注册率。为此我们做出几个设计方案。一开始认为只隐藏property image(这个不知道怎么翻译,感觉是一个广告相关的,应该不是简单的图片属性之类)的方案会是最好的,但最后发现同时隐藏property image和价格的方案有最高的转化率。
4、探索边界
最好的想法来自于源源不断的探索。在工作中,我们的产品团队一起合作完成了各种不同的项目,团队中包括了设计师、产品经理、开发者,我们一起进行探索。一些最好的想法是产品经理或者开发者试用了原型之后提出来的,而不是由设计师自己。
5、观察用户做什么,而不是说什么
与用户交流的时候,要时刻记住,他们说的往往和做的不一样。这里有一个很好的例子来说明,这周我进行了一个用户测试,是关于一个联系人列表的原型。我询问用户是否经常使用分类和筛选的功能,用户说不,因为他不需要这些功能。但是当用户发现有了一个新的下拉菜单用于筛选时,他惊奇地发现这样的设计让分类和筛选变得非常方便,并且马上问到,为什么不在产品中加入这个功能。
6、使用数据去估算机会的大小
- 这样往往可以同时解决为什么的问题。
- 数据可以帮助形成想法。
- 检查各个A/B测试的结果是否相互矛盾。
最后这六个点是作者自己的收获,应该是听的过程中一些比较深刻的内容,所以也不是什么总结或者归纳,内容上也显得比较随意,不过确实都是一些值得思考的问题。
文中作者还附上了两个Netflix的相关链接,这里补上。
- How Netflix selects the best artwork for videos through A/B testing
- The Netflix experimentation platform
以上。