(首发于纽约时报中文网)
对“大数据”概念还搞不清的人可以松一口气了,如果你读过《大数据时代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),你会发现舍恩伯格(Viktor Mayer-Schönberger)对“大数据”的定义如此简单:所谓大数据(Big Data),就是大量的数据;它的反义词同样简单:小数据(Small Data),很少很少的数据。
相比于作者所著同样谈论大数据话题的《删除:大数据取舍之道》一书,《大数据时代》结构紧密,逻辑清晰,论证过程也更为严谨。本书在何为大数据、大数据有何典型特征、大数据的实际应用和未来以及大数据的隐忧等关键问题上,通过案例和通畅晓白的解释,梳理清楚了“大数据”这个看起来高深复杂但其实无处不在的概念。在舍恩伯格看来,以往我们因受限于工具而采用的抽样调查以及精准采样数据的分析方法需要革新,大数据时代是改变方法论和思维方式的过程。
大数据时代的到来,与信息数字化息息相关。在2000年的时候,以数字化形式存储的数据仅占全球数据量的四分之一,而到了2007年时,90%以上数据是数字化数据,剩下不到10%是存储在报纸、CD等介质上的模拟数据。我们知道,模拟数据在复制和传播过程中信息会失真、噪音叠加,比如一张纸连续复印三次之后,噪点越来越多,字迹越来越模糊,一盘音乐磁带连续翻录多次之后,令人厌烦的“嗞嗞”声越来越大。而二进制数字世界,是一个非黑即白的世界,要么1要么0,即使有噪点,灰色也会被识别黑色(1),浅白则被计算机处理为白(0),没有中间地带,也就没有了噪音的容身之处。信息在数字世界得以无损复制和传播,再加上不断廉价化的存储能力以及同时提高的计算能力,大量以前无法处理的数据,有了分析、解读它们的可能。
在模拟信息的世界,因为信息收集、信息复制、信息存储以及信息分析的工具既不够好,成本也极为高昂,我们只能收集极少量的数据(也即所谓的“结构化数据”)进行分析,由于条件所限,我们发明了统计学来通过尽可能少的数据,去推导、去证实尽可能重大的发现。当我们意识到我们已经拥有能够收集和处理大规模数据(也即所谓更多的“非结构化数据”)能力的时候,我们需要新的理念和工具去重新认识这个世界了。
新的理念运用于工具上的体现之一是光场相机Lytro。与其它数码相机不同的是,Lytro相机可以在拍摄完照片之后再对焦。因为在拍摄时,Lytro可以记录整个光场里所有的光,照片具体生成什么样,拍完之后根据需要再决定。——有没有发现这颠覆了我们做事的一贯逻辑?以往我们因为受制于工具或金钱,需要提前想好我们的目的,再去获取我们需要的信息。而大数据时代的思维方式则如Lytro的特性一样,先拍下来再说,需要什么样的照片,后期再处理。Lytro相机也算从胶片机过渡到数码相机交叠时代思维的延续,如果摄影技术不太好,先拍一堆片子再说,你总能挑出几张好的来。
对小数据而言,最重要的要求是减少错误,保证质量。而大数据对更糙的信息及冗余信息容忍度更高,也即当资源足够丰富且廉价的时候,可以先大量浪费,再来精准化。而不是预设精准的目标。亚马逊早期雇佣了一群书评家为读者荐书,后来发现通过算法——一群对图书质量判断能力远不如专业人士的普通读者的口味的集合——推荐图书的转化率更高之后,亚马逊把书评家们都解雇了。由于自己多年积累被算法取代的愤怒,在被解雇之后,书评家发出这样的抱怨:(通过算法推荐)“那种感觉就像你和一群脑残在一起逛书店。”类似的故事也发生微软。微软机器翻译部门的统计学家们在茶余饭后闲聊中会说,每次一有语言学家离开他们团队,微软机器翻译质量就会变得更好一点。
从对信息质量的角度出发去观察,我们会发现大数据时代的特性的确越来越“脑残化”:它放弃原始数据的精确性,强调数据量的多和杂;它放弃因果关系的判断,强调相关关系;它放弃知其所以然(为什么),只需知其然(是什么)就可以了。豆瓣阅读为什么给你推荐《中国合伙人》?背后的逻辑可能是你的朋友最近点了“想看”或“看过”。新浪微博为什么推荐李承鹏而不是李开复给你关注?背后的逻辑可能是你关注的人中更多人关注李承鹏。但为什么因为朋友喜欢,所以机器就会判定你也会喜欢呢?不知道。机器通过计算得知,如果你有很多朋友喜欢同一个事物,那么你喜欢这个事物的概率会大一些。可能对,也可能错。二者之间强相关,但不因果。
大数据最大的用途之一是预测。好的方面,它可以预测机票价格走势,为自费旅游者省钱;它能预测交通拥堵情况,帮助人们选择更好的时段和路线节省出行时间;它也可以像亚马逊做的那样,为你提供更准确的书单,帮你遇见更多好书。《麻省理工科技创业》曾报道说,英国伯明翰大学的一个研究团队甚至开发出一种算法,可以精确地预测你未来将要去哪里。大多数人一般有规律的行为模式,但传统的预测算法——只通过用户本身的行为模式来进行预测,解决不了人们临时变更路线的情况,导致预测人们出行的平均误差高达1000米。伯明翰大学开发的算法可以通过追踪用户手机上的个人过往行为模式数据以及用户手机里的社交关系——当然,新型算法需要收集和分析大量个人信息。最后能预测用户在24小时之内会去什么地点,而平均误差减少到仅20米。
如此精准的研究结果让人惊喜——细想过后,可能给人带来更多的是惊讶,或惊恐。没有人希望自己的正常出行被别人预测——机器竟然比我自己还了解自己,我连三小时后我会干嘛都不知道呢!这提醒我们在大数据时代,我们将面临的隐私问题的严峻。
在小数据时代,数据采集者需要告知数据提供者其采集的数据用途为何;但在大数据时代,这样的信息管理方式已经失效。舍恩伯格在书中指出,“大数据”将颠覆隐私保护法当下以个人为中心的思想。比如许多公司采集用户数据时的目的与最后使用的目的往往不同,而且在未来,大数据的价值不再单纯来自它的基本用途,更多来于它的二次甚至多次利用。但有时候即使个人不同意,也会为公众带来隐私问题。以Google街景项目为例,Google采集了街道上的几乎全部信息,如果有某个人不同意ta的数据显示在Google街景中,Google会将该信息模糊化处理。但当其他人的信息都完整呈现在街景图中时,“马赛克”(模糊化处理)的部分反倒成了焦点——本想隐藏掉的信息反倒成了此地无银三百两式的焦点。未来的个人数据采集与数据授权,需要替换掉目前的隐私保护方案。
舍恩伯格在书中举的更讽刺的案例则是,2007年,英国报纸London Evening Standard一篇报道称,在乔治·奥威尔创作《1984》的地方,也就是他在伦敦公寓方圆183米范围内,有32架摄像机。如果奥威尔生活到现在,看到此情此景,他会做何感想?