关于大数据时代之数据分析的疑问

身处当下的现代世界,我们对技术进步,都非常乐观。

我们相信,技术一定会越来越先进,会让我们的生活变得越来越好,会在每一个方面都促进社会进步。

从大趋势来说,这个乐观情绪应该没有问题,不过我们今天要说一个小趋势。

何帆老师在《何帆报告》中提出了“小趋势”的概念,也是今年罗胖跨年演讲的主题之一。

小趋势是趋势的趋势,是尚未成为主流,但是意义深远的小众趋势。

我们今天要说的这个跟何帆老师说的小趋势有所不同,这是一个逆流而动的趋势。

我要说的是数据分析。

从大趋势来说,我们相信随着数据越来越丰富,各大公司应该越来越了解我们,会出现各种根据个人口味定制的商品,任何小众的需求都能被满足,每个人应该越来越个性化地发展,这是一个“大数据”时代,对吧?

也许是这样,按理说应该是这样,过去我们的确认为是这样。

但现在看来,至少最近的趋势不是这样。

以前我们对“推荐引擎”这个东西抱有很大的期望,包括赫拉利在《未来简史》中都说,也许将来 AI 会比你自己更了解你自己。

那请问在过去这些年间,在“机器学习”进步如此神速的背景之下,你收到各个网站的推荐,是否效果更好了呢?

人们一度认为,数据分析,能让电影电视剧,越来越精确地符合观众口味,甚至曾经有传言说,《纸牌屋》这个电视剧,就是用数据分析编出来的(并不是)。

那请问,为什么今天的市场上仍然充斥着各种不好看的影视作品呢?

我最近读到一位数据分析师的博客文章 ,深有感触。他分析了数据分析师面临的窘境。我们来总结一下,问题有三个方面。

第一,你很难通过数据分析,找到人的个性化需求。

有很多人喜欢下载电影和电子书,在硬盘里攒一大堆,但是下载容易,实际上大多数都没有看。

其实数据分析也是这样:搜集数据容易,分析数据难。

现在打开一个网页,你一看好像没有多少内容,但是打开的速度为什么这么慢呢?

主要并不是广告,而是因为各种 “trackers”,也就是追踪器。

追踪器会记录你在这个网页上的各种行为,比如点击了什么,在那个页面停留了多少时间,曾经购买过什么东西,浏览记录之类。

各个数据公司会付给网站一笔钱,比如每年几万美元,换取在网页上放置追踪器的权利。

现在一个寻常的购物和娱乐网页上,可能有好几十个追踪器,可以说你的一举一动都被记录了。

这听起来挺可怕。

从原则上来说,人工智能可以通过分析追踪器的数据,来判断你的浏览和购物习惯、你的性别、年龄、居住地址、收入水平和受教育程度,你的家人和朋友都有谁,各种信息,然后,根据这些信息,向你精准投放广告。

但事实上,并没有那么厉害。

数据公司只是通过追踪器,收集你的网上活动数据,然后把数据卖给广告公司。

但是因为各家数据公司是各自为战,各家广告公司并不能得到你的全部活动信息。

它们也许只能看到你的一面,也许把你当成了好几个不同的人。

所以有数据是一回事,能从数据里分析出来什么东西是另一回事。

更大的麻烦在于,点击行为常常并不能表现你的个性。

你打开一个新闻网站,看到上面有吴秀波的大事件,你就点击了。这能说明什么呢?说明你是一个关心明星八卦的时尚年轻人吗?不能!事实是所有人都对这种新闻感兴趣。可是你这么一点击,就给了数据公司的机器学习算法一个大大的正反馈,它下一次就会向你推荐翟天临的新闻 —— 然后你又点击了。

我给你打个比方,这种数据分析,就好比是公众号文章里爱说的那种“人性测试”。

一个青年女性,想知道自己的男朋友是不是靠得住的人,就请自己的朋友,假意对他表示好感,想看看他能不能经受考验。

结果不测试还好,一测试就容易出事。

所以现在的新伦理,要求我们,不要搞这样的测试,人性是经不起考验的,这种测试不能说明什么问题。

网络点击也是这样。

数据分析师,早就知道一个能获得最大点击量的算法:那就是加入通往色情内容的链接。不管这个人搜索的是什么关键词,只要你在搜索结果中,加入几个色情内容链接,他一定会点击。可是这能说明什么呢?

各种新闻站点给我们明星八卦,其实跟色情一样,属于人性的基本需求,只不过明星八卦可以在办公室里浏览而已。

每个人的所谓个性,被淹没在了,众人的共性之中。


数据分析的第二个问题是,消费者的个性需求,对商家其实并不重要。

比如你想买个加湿器,你就在搜索引擎输入“加湿器”这个关键词,搜索引擎就给你推荐了几个加湿器的广告。

像这样的广告我们是欢迎的,可以说是精确投放。但是,搜索引擎在这个过程中,用到你的“个性化信息”了吗?

没有!

你已经告诉它你需要加湿器。

加湿器的广告就那么几种,搜索引擎只要把典型的加湿器广告,投送给你就大功告成了。

它根本不需要知道你的性别、年龄、收入水平和受教育程度。不同类型的人对加湿器的需求没有那么大的差别 —— 就算有,我给你推荐五个型号总行了吧?

再比如说,你在游戏网站 Steam 上用打星的方式关注了好几个游戏。

当其中某个游戏降价,或者,出了新版的时候,你收到一封电子邮件提醒。这个服务很贴心,但是这个服务用到了你的个性化信息吗?没有!是你自己打星,告诉它你对这些游戏感兴趣。

还有,你在购物网站买个什么东西,网站会推荐你买另一些东西。

比如你买个电视机它推荐你买HDMI线,这个服务用到你的个性化信息了吗?也没有。事实是很多买电视机的人都需要HDMI线。网站只要知道多数人的习惯就行了。

我认为出现这两个问题的根本原因在于,我们跟大多数人真的没有什么本质区别,而广告和推荐真的不需要太精确。

电视广告是最不精确的投放,但是这么多年来广告商也认了,而且效果也还可以。相对于电视,网上这种“大多数对 A 感兴趣的人也对 B 感兴趣”的推荐已经是巨大的进步。

更精确的投放,也许在技术上能做到,但是很可能根本不值得做。

所以这个局面是,就算你根本不在乎什么隐私,你把所有数据都告诉商家,商家也未必能给你提供更好的推荐服务。

那既然大多数人的偏好都差不多,还有必要搞什么定制的内容服务吗?

这就引出了第三个问题:个性化定制的必要性降低了。

以前 Netflix(奈飞)有非常好的个性化推荐服务。

那时候它是一个出租DVD光盘的网站,你给看过的电影打分,它会向你推荐你可能喜欢的电影。它的推荐常常令人感到惊喜,有的电影你根本没听说过,但是一看真的喜欢。

那种日子已经结束了。

我们专栏以前讲过,Netflix 曾经组织过一次推荐算法大赛,轰动一时,的确选出来一个更好的算法。

但是 Netflix 并没有使用那个算法。现在的 Netflix 已经都不用推荐算法了。

为啥呢?因为精确推荐已经没有商业价值了。以前 Netflix 是邮寄光盘,等好几天才能收到一次,它会想方设法确保你拿到自己喜欢的电影,不然你要是一次收到三张光盘都不喜欢,整个周末可能都毁了。

但是现在的 Netflix 是在网上直接看片,你一看这个不喜欢马上就可以换一个,它总能满足你。

还有,以前有惊喜,是因为以前的 Netflix 希望你看一些小众的电影,因为光盘已经买了,它希望增加每张光盘的流转率 —— 否则新片太抢手不得不买一大堆光盘,可是过不了多久这个片凉了那些光盘都没人看了。

而对现在的 Netflix 来说,看热门电影的人再多也不是问题,甚至看的人越多,还越方便安排流量。

所以现在的局面,就更加走向了“胜者通吃”的方向。

我们专栏以前讲《成功与运气》这本书和在《选择越多,越是胜者通吃》这篇文章里都说过这个问题:所谓的小众需求和“长尾效应”,并没有我们想象的那么明显,互联网时代胜者通吃,反而还加剧了。

那么在这种情况下,还有没有必要生产小众的影视节目,都成了问题。

以前没有数据分析,创作者还可以根据个人喜好任意探索一些内容。现在有了数据分析,用数据说话的声音越来越强,你就越来越得听数据的。

可是正如我们前面所说,数据分析基本上就相当于是“人性测试” —— 你越测试就越觉得人性是黑暗的,但是殊不知,黑暗本来就是你给测出来的!

那我们想想,在数据的作用下,我们看到的影视作品,会不会越来越大众化、越来越依赖流量明星、越来越俗套呢?

数据最擅长告诉我们过去的规律、大多数人的规律、特别是大多数人轻易表现出来的规律。数据不能告诉我们创新,数据不能告诉我们内涵。

朱迪亚·珀尔说,数据是深度愚蠢的。

我们对数据分析的赞美可能是个神话,这个神话很可能正在反转。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342