身处当下的现代世界,我们对技术进步,都非常乐观。
我们相信,技术一定会越来越先进,会让我们的生活变得越来越好,会在每一个方面都促进社会进步。
从大趋势来说,这个乐观情绪应该没有问题,不过我们今天要说一个小趋势。
何帆老师在《何帆报告》中提出了“小趋势”的概念,也是今年罗胖跨年演讲的主题之一。
小趋势是趋势的趋势,是尚未成为主流,但是意义深远的小众趋势。
我们今天要说的这个跟何帆老师说的小趋势有所不同,这是一个逆流而动的趋势。
我要说的是数据分析。
从大趋势来说,我们相信随着数据越来越丰富,各大公司应该越来越了解我们,会出现各种根据个人口味定制的商品,任何小众的需求都能被满足,每个人应该越来越个性化地发展,这是一个“大数据”时代,对吧?
也许是这样,按理说应该是这样,过去我们的确认为是这样。
但现在看来,至少最近的趋势不是这样。
以前我们对“推荐引擎”这个东西抱有很大的期望,包括赫拉利在《未来简史》中都说,也许将来 AI 会比你自己更了解你自己。
那请问在过去这些年间,在“机器学习”进步如此神速的背景之下,你收到各个网站的推荐,是否效果更好了呢?
人们一度认为,数据分析,能让电影电视剧,越来越精确地符合观众口味,甚至曾经有传言说,《纸牌屋》这个电视剧,就是用数据分析编出来的(并不是)。
那请问,为什么今天的市场上仍然充斥着各种不好看的影视作品呢?
我最近读到一位数据分析师的博客文章 ,深有感触。他分析了数据分析师面临的窘境。我们来总结一下,问题有三个方面。
第一,你很难通过数据分析,找到人的个性化需求。
有很多人喜欢下载电影和电子书,在硬盘里攒一大堆,但是下载容易,实际上大多数都没有看。
其实数据分析也是这样:搜集数据容易,分析数据难。
现在打开一个网页,你一看好像没有多少内容,但是打开的速度为什么这么慢呢?
主要并不是广告,而是因为各种 “trackers”,也就是追踪器。
追踪器会记录你在这个网页上的各种行为,比如点击了什么,在那个页面停留了多少时间,曾经购买过什么东西,浏览记录之类。
各个数据公司会付给网站一笔钱,比如每年几万美元,换取在网页上放置追踪器的权利。
现在一个寻常的购物和娱乐网页上,可能有好几十个追踪器,可以说你的一举一动都被记录了。
这听起来挺可怕。
从原则上来说,人工智能可以通过分析追踪器的数据,来判断你的浏览和购物习惯、你的性别、年龄、居住地址、收入水平和受教育程度,你的家人和朋友都有谁,各种信息,然后,根据这些信息,向你精准投放广告。
但事实上,并没有那么厉害。
数据公司只是通过追踪器,收集你的网上活动数据,然后把数据卖给广告公司。
但是因为各家数据公司是各自为战,各家广告公司并不能得到你的全部活动信息。
它们也许只能看到你的一面,也许把你当成了好几个不同的人。
所以有数据是一回事,能从数据里分析出来什么东西是另一回事。
更大的麻烦在于,点击行为常常并不能表现你的个性。
你打开一个新闻网站,看到上面有吴秀波的大事件,你就点击了。这能说明什么呢?说明你是一个关心明星八卦的时尚年轻人吗?不能!事实是所有人都对这种新闻感兴趣。可是你这么一点击,就给了数据公司的机器学习算法一个大大的正反馈,它下一次就会向你推荐翟天临的新闻 —— 然后你又点击了。
我给你打个比方,这种数据分析,就好比是公众号文章里爱说的那种“人性测试”。
一个青年女性,想知道自己的男朋友是不是靠得住的人,就请自己的朋友,假意对他表示好感,想看看他能不能经受考验。
结果不测试还好,一测试就容易出事。
所以现在的新伦理,要求我们,不要搞这样的测试,人性是经不起考验的,这种测试不能说明什么问题。
网络点击也是这样。
数据分析师,早就知道一个能获得最大点击量的算法:那就是加入通往色情内容的链接。不管这个人搜索的是什么关键词,只要你在搜索结果中,加入几个色情内容链接,他一定会点击。可是这能说明什么呢?
各种新闻站点给我们明星八卦,其实跟色情一样,属于人性的基本需求,只不过明星八卦可以在办公室里浏览而已。
每个人的所谓个性,被淹没在了,众人的共性之中。
数据分析的第二个问题是,消费者的个性需求,对商家其实并不重要。
比如你想买个加湿器,你就在搜索引擎输入“加湿器”这个关键词,搜索引擎就给你推荐了几个加湿器的广告。
像这样的广告我们是欢迎的,可以说是精确投放。但是,搜索引擎在这个过程中,用到你的“个性化信息”了吗?
没有!
你已经告诉它你需要加湿器。
加湿器的广告就那么几种,搜索引擎只要把典型的加湿器广告,投送给你就大功告成了。
它根本不需要知道你的性别、年龄、收入水平和受教育程度。不同类型的人对加湿器的需求没有那么大的差别 —— 就算有,我给你推荐五个型号总行了吧?
再比如说,你在游戏网站 Steam 上用打星的方式关注了好几个游戏。
当其中某个游戏降价,或者,出了新版的时候,你收到一封电子邮件提醒。这个服务很贴心,但是这个服务用到了你的个性化信息吗?没有!是你自己打星,告诉它你对这些游戏感兴趣。
还有,你在购物网站买个什么东西,网站会推荐你买另一些东西。
比如你买个电视机它推荐你买HDMI线,这个服务用到你的个性化信息了吗?也没有。事实是很多买电视机的人都需要HDMI线。网站只要知道多数人的习惯就行了。
我认为出现这两个问题的根本原因在于,我们跟大多数人真的没有什么本质区别,而广告和推荐真的不需要太精确。
电视广告是最不精确的投放,但是这么多年来广告商也认了,而且效果也还可以。相对于电视,网上这种“大多数对 A 感兴趣的人也对 B 感兴趣”的推荐已经是巨大的进步。
更精确的投放,也许在技术上能做到,但是很可能根本不值得做。
所以这个局面是,就算你根本不在乎什么隐私,你把所有数据都告诉商家,商家也未必能给你提供更好的推荐服务。
那既然大多数人的偏好都差不多,还有必要搞什么定制的内容服务吗?
这就引出了第三个问题:个性化定制的必要性降低了。
以前 Netflix(奈飞)有非常好的个性化推荐服务。
那时候它是一个出租DVD光盘的网站,你给看过的电影打分,它会向你推荐你可能喜欢的电影。它的推荐常常令人感到惊喜,有的电影你根本没听说过,但是一看真的喜欢。
那种日子已经结束了。
我们专栏以前讲过,Netflix 曾经组织过一次推荐算法大赛,轰动一时,的确选出来一个更好的算法。
但是 Netflix 并没有使用那个算法。现在的 Netflix 已经都不用推荐算法了。
为啥呢?因为精确推荐已经没有商业价值了。以前 Netflix 是邮寄光盘,等好几天才能收到一次,它会想方设法确保你拿到自己喜欢的电影,不然你要是一次收到三张光盘都不喜欢,整个周末可能都毁了。
但是现在的 Netflix 是在网上直接看片,你一看这个不喜欢马上就可以换一个,它总能满足你。
还有,以前有惊喜,是因为以前的 Netflix 希望你看一些小众的电影,因为光盘已经买了,它希望增加每张光盘的流转率 —— 否则新片太抢手不得不买一大堆光盘,可是过不了多久这个片凉了那些光盘都没人看了。
而对现在的 Netflix 来说,看热门电影的人再多也不是问题,甚至看的人越多,还越方便安排流量。
所以现在的局面,就更加走向了“胜者通吃”的方向。
我们专栏以前讲《成功与运气》这本书和在《选择越多,越是胜者通吃》这篇文章里都说过这个问题:所谓的小众需求和“长尾效应”,并没有我们想象的那么明显,互联网时代胜者通吃,反而还加剧了。
那么在这种情况下,还有没有必要生产小众的影视节目,都成了问题。
以前没有数据分析,创作者还可以根据个人喜好任意探索一些内容。现在有了数据分析,用数据说话的声音越来越强,你就越来越得听数据的。
可是正如我们前面所说,数据分析基本上就相当于是“人性测试” —— 你越测试就越觉得人性是黑暗的,但是殊不知,黑暗本来就是你给测出来的!
那我们想想,在数据的作用下,我们看到的影视作品,会不会越来越大众化、越来越依赖流量明星、越来越俗套呢?
数据最擅长告诉我们过去的规律、大多数人的规律、特别是大多数人轻易表现出来的规律。数据不能告诉我们创新,数据不能告诉我们内涵。
朱迪亚·珀尔说,数据是深度愚蠢的。
我们对数据分析的赞美可能是个神话,这个神话很可能正在反转。