可用性测试需要多少人?NNG的一篇文章《可用性测试需要多少人》中给了答案,该文章发表于2013年6月3日,作者是尼尔森本森。居然这么少?我翻了公司可用性测试报告的一些记录,每个模块也大概是5个人。为什么是5?以下是查阅资料的笔记。
一些用户研数的建议
可用性测试:每个模块需要测试用户数为5。其他实验测试人数如下:
定量研究 (以统计为目的而非观察为目的):至少20 个用户,才能得到有统计意义的数字;如果为了得到准确度高的置信区间的一个统计则需要更多的用户。
卡片分类:每个测试组至少15个用户。
眼球追踪:测试39 个用户才能得到稳定的热图。
因为我们做的大部分用研都是定性研究——也就是说做用研的目的是为了发现问题改进产品设计,而不是为了得到一组数字之后在PPT中引用。所以对5个人进行测试就已经能够发现大部分的可用性问题,和对更多人进行测试所得到的结论相差无几。5个人的时候可获得最大效益成本比率BCR(Benefit Cost Ratio)。超过这个数字,投资收益率会猛降。这个数字自1989年到该文章发表的2013年一直没有变过。无论测试对象是针对网站、内网、桌面端还是移动端,都是5个。
一些错误观点
1、“网站拥有上百万个用户。”
样本自身的数量和统计样本存在的问题数没有关系,民意测验才需要庞大的样本数量。在用户调研中,我们关注的是网站功能,哪些点好用哪些难用。(相反,到底要不要花费成本来优化那些很少人使用的功能才是一个值得三思的事情;把精力投在那些有大量用户在使用的功能上才是重点。)
2、“大型网站有数百个功能点”
分多个组测试,而不是一个组里有多个人。每个组都聚焦一个小的功能模块。功能丰富的产品需要更多的测试者,需要把这些测试者分散于不同的测试组。而不是把一个测试者很多人,每个人都要做好多个测试,测试者会精疲力尽的。
3、“我们有不同的目标用户群里”
听起来的确需求很多测试人员,不同的人代表了不同的测试群体。其实不然,只有这些不同的用户群体,他们的行为完全不同时,才需要分组测试。比如一个医疗网站所面对的医生和患者,拍卖网站面对的卖家和买家。只有用户群体如以上大差别时,需要对不同的用户群体进行测试,每类群体的测试人员5人。还有用户是会有多重身份的,比如有的用户既是买方又是卖方,所以可以有重叠。
4、“网站营收可观,不容一点点的可用性问题。”
有钱的公司财大气粗,在用研上花了很多钱,但是可以从产品上赚回更多。即便如此,大公司重视ROI(投资回报率),他们会把研究放在那些收益更高的项目上。
因为测试的目的是迭代,而不是百分百发现所有的问题,没有人能把app设计得100%完美,测试和迭代的重点是快速发现大部分问题,快速改掉里面的重要的问题,然后循环这一过程。一次测15个人,远比不上1次测5个人,每次测试迭代后再测5个人,以此类推测3轮。
NNG的研究
下图展示了测试人数和发现可用性问题间的关系。图表仅适用于普通的定性研究。看了图有小伙伴可能会问,图里不是12个左右的用户最能接近发现100%的问题么?根据NNG的研究,每次3-5个用户即可以发现大部分的可用性问题,在多了就会浪费资源。
有些时候会进行更多的用户测试,比如以下情况:
1)甲方想要更多的测试用户,以此提高可信度;给一些不懂可用性的高管展示方案时,更多的测试者看起来更有说服力;
2)一些咨询类项目需要更多的测试者,一般是8个测试人员时会有较高的投资回报率。因为需要花时间和精力寻找咨询人员,所花的成本不只是金钱成本。
对于一些费用和资源严重不足的项目,最少测试2个用户。一些特殊的项目需要测试8个或更多的用户。对于大部分项目来说,你要相信:测试5个用户就够了。