原创| 张春泥
“周、蔡”打榜的数据思考
一场周杰伦的“中老年粉丝”与蔡徐坤铁军的16小时打榜战役以周董登顶告终,在朋友圈围观的80后老阿姨看得几乎要老泪纵横:即便是散兵游勇的夕阳红粉丝团,也能在流量时代拼杀一把,证明就算周董发福、中年、已婚,偶像仍是偶像,“你大爷还是你大爷”。此情此景,激动万分的老阿姨都想去给李宗盛刷榜了;于此同时,也生了一个疑惑:蔡徐坤是谁?这个问题一经在朋友圈抛出,瞬间跟了一串同龄人的留言——“同问”。
也许我们真是老了,不能理解互联网时代的小鲜肉在没有广为传唱的好歌、没有广受好评的影视作品竟可以成为坐拥千万粉丝的爱豆;不过,互联网时代的粉丝也质疑我们的偶像如何在微博超话排不上名、转评赞不过万的情况下开演唱会还能出现一票难求的盛况。
诚然,一个人是喜欢周杰伦还是蔡徐坤,不过是青菜萝卜各有所爱,但若论及哪位艺人更有影响力、更受认可,这就是一个可以测量的经验问题。在此次打榜战役中,有人总结道,“数据就真的只是数据而已”,想想也是,“周杰伦又不是流量明星,做什么数据啊?“不过,调侃归调侃,这并不等于说,数据不能反映或测量艺人的影响力或受认可度,而是要看什么样的数据才能更好地反映艺人(也可以是其他领域的公众人物)的影响力或受认可度,或者更广义的一个问题是,什么样的数据才能更好地反映出人们对事物真正的态度?
流量时代塑造了这样一个逻辑:偶像的数据=流量=影响力=商业价值,而此次事件恰恰对这个逻辑扇了一记响亮的耳光:微博的粉丝数据并不能如实地估计粉丝群体的规模及其对偶像的支持度。但为何数以千万计的微博关注量、转评赞、排行榜仍不能如实反映公众人物的影响力呢?“做数据”或人为造假(如批量购买)是一个方面,但即便没有造假的水分,粉丝在互联网上留下的大数据也存在系统性偏差。
大数据的“系统性偏差”
什么是系统性偏差?顾名思义,“偏差”就是偏离真实情况(值)的误差,所谓“系统性”是相对于非系统性(或随机性)而言的,指的是误差的来源不是随机产生,而是由某个(些)结构性原因造成。系统性偏差的来源很多,在此次事件中,一个最重要的系统性偏差就是活跃于微博的粉丝用户来源。
让我们换一种非娱乐的语言来回顾此次事件。我们可以将其等同于一起投票事件,大家需要把自己手中的票投给自己的爱豆。在最开始我们看到的情况是蔡徐坤的票数遥遥领先,这是大数据展示给我们的内容,如果以此下结论,就是蔡徐坤的人气或者受认可度高于周杰伦。然而,大家都知道,投票重在公平。在蔡徐坤高票数的背后,是不是人人都有平等的投票机会?对这个问题我们需要打一个大大的问号。
首先,是不是人人都能参与投票?以我为例,不是老阿姨我不喜欢周杰伦,而是我白天上班,晚上带娃,周末家务,不刷微博久矣,更别提去关注娱乐资讯。如果周杰伦当年的粉丝都已到了如我这般在生活和工作之间疲于奔命的年纪,远离了社交媒体,也没时间精力为他去(学习)打榜,他的数据不好看也是理所当然——因为这种数据就算再大,也没有很好地囊括我们这些“夕阳红”粉丝。也就是说,周杰伦的粉丝群体的特征决定了他们没有和蔡徐坤的粉丝群体平等的投票机会,他们中很多人因为人生阶段、时间、精力等原因,不关注微博,或者不关注娱乐,或者不会打榜,因而不可能上微博追星。
第二,是不是每位投票者机会均等?从事后的发酵新闻来看,蔡徐坤的铁军长期训练有素,他们不仅自己投票,还各自注册了很多小号,每一个小号相当于额外的一票。周杰伦的粉丝在找到超级话题的入口都不容易的情况下,更别提注册小号。也就是说,蔡徐坤的粉丝每个人可以投很多次票,而周杰伦的粉丝在奋起反击之前,大多数人可能最多只投了一票,结果可想而知。
从以上两个角度来看,数据量大未必能解决系统性的偏差。换言之,大数据也可能是没有代表性的,因而它所反映出的这种“事实”可能并非真正的事实。
数据的“代表性”
那么,怎样的数据才具有代表性?
这要从总体开始说起。总体是指一定时空范围内所有个体的总和。
在很多情况下,我们提出的问题都与总体的特征有关,比如,此次事件的一个核心问题是:如今中国人口中有多少周杰伦或者蔡徐坤的粉丝?人们对周杰伦或者蔡徐坤的喜爱程度有多高?(当然,这里的周杰伦和蔡徐坤还可以换成其他人)。所以,此次的总体是全中国的人口。通常我们没法(包括没钱)对中国人口中所有的男女老少都问一遍他们认不认识周杰伦/蔡徐坤、有多喜欢周杰伦/蔡徐坤、是不是周杰伦/蔡徐坤的粉丝,诸如此类云云。
这种情况下我们可以选择一部分人来了解他们对周杰伦/蔡徐坤的看法或态度,前提是这一部分人能够代表整个总体人群的态度。
这一部分人就是“样本”,即总体的一个子集。要想这一部分人能够代表总体人群的态度,意味着不能随便从总体中抓一些人构成一个样本,恰当的样本不仅仅应该是总体的子集,同时还必须与总体同构——在基本特征的构成上与总体一致,或者可以理解为一个缩微版的总体。据此,样本量即使很小,我们也能见微知著,通过样本的特征来推知总体的特征。
由于我们的样本在基本特征的构成上与总体一致——即能够代表总体(有代表性),我们基于样本对总体的猜测相对来说会比较准确。而之前提到的微博大数据,虽然也是总体中的一部分,但忽略了老阿姨这样的群体,因此即便数据量再大,也不能认为是与总体同构或对总体有代表性。而且,更要命的是,现阶段真正有购买能力的人群,恰恰是老阿姨这一类被忽略的人群——花自己挣的钱,不仅买得起演唱会的票,还买得起两张。如果仅仅基于流量数据来评估一位明星的商业价值,很可能做出错误的商业决定。
接下来的问题是,如何得到有代表性的样本呢?总体特征通常是未知的,大多数情况下我们没有太多参考标准去匹配出与一个总体特征一致的样本,统计学提供给我们的办法是概率抽样。在概率抽样的条件下,总体中每个个体有同等的机会被抽中,成为样本的一员。在此次打榜事件中,即体现为上文所说的人人都有平等的投票的机会。由于被抽中的机会相等,理论上意味着不会对哪个群体有偏倚,即便难免会抽到一些奇葩特例,但这都是个别的、随机的,而且在样本量增加的情况下,不同类型的奇葩案例的特殊取值会被平均掉,因此能得到对总体特征取值较好的估计。从这点来讲,一个有代表性的概率样本规模即便不大,也会比有系统性偏差的大数据能更好地解答有关总体的问题。
话说回来,这场大戏妙在局中局的设计:表面看起来是两路粉丝团争夺超级话题榜首,而这场竞争本身也制造了一个“超级话题”,获得了极高的社会关注度。如果其背后真有人在设计的话,运作者是真正玩弄数据的高手,他(们)精准地选出了周杰伦作为代表,酝酿了这么一出好戏。每个盲目崇拜数据却不求甚解的人是否应该反思,在数据(流量)为王的时代,到底是你在玩弄数据,还是你被数据所玩弄?
所以,数据如何产生比产生多少数据更重要。如果你想知道周杰伦和蔡徐坤谁更有影响力,与其“做”数据,不如用概率样本做调查。冷静思索,理智分析,是我们对待和使用数据的基本态度。