大数据时代，让一群脑残为你选书

（首发于纽约时报中文网）

对“大数据”概念还搞不清的人可以松一口气了，如果你读过《大数据时代》（Big Data:A Revolution That Will Transform How We Live, Work, and Think），你会发现舍恩伯格（Viktor Mayer-Schönberger）对“大数据”的定义如此简单：所谓大数据（Big Data），就是大量的数据；它的反义词同样简单：小数据（Small Data），很少很少的数据。

相比于作者所著同样谈论大数据话题的《删除：大数据取舍之道》一书，《大数据时代》结构紧密，逻辑清晰，论证过程也更为严谨。本书在何为大数据、大数据有何典型特征、大数据的实际应用和未来以及大数据的隐忧等关键问题上，通过案例和通畅晓白的解释，梳理清楚了“大数据”这个看起来高深复杂但其实无处不在的概念。在舍恩伯格看来，以往我们因受限于工具而采用的抽样调查以及精准采样数据的分析方法需要革新，大数据时代是改变方法论和思维方式的过程。

大数据时代的到来，与信息数字化息息相关。在2000年的时候，以数字化形式存储的数据仅占全球数据量的四分之一，而到了2007年时，90%以上数据是数字化数据，剩下不到10%是存储在报纸、CD等介质上的模拟数据。我们知道，模拟数据在复制和传播过程中信息会失真、噪音叠加，比如一张纸连续复印三次之后，噪点越来越多，字迹越来越模糊，一盘音乐磁带连续翻录多次之后，令人厌烦的“嗞嗞”声越来越大。而二进制数字世界，是一个非黑即白的世界，要么1要么0，即使有噪点，灰色也会被识别黑色（1），浅白则被计算机处理为白（0），没有中间地带，也就没有了噪音的容身之处。信息在数字世界得以无损复制和传播，再加上不断廉价化的存储能力以及同时提高的计算能力，大量以前无法处理的数据，有了分析、解读它们的可能。

在模拟信息的世界，因为信息收集、信息复制、信息存储以及信息分析的工具既不够好，成本也极为高昂，我们只能收集极少量的数据（也即所谓的“结构化数据”）进行分析，由于条件所限，我们发明了统计学来通过尽可能少的数据，去推导、去证实尽可能重大的发现。当我们意识到我们已经拥有能够收集和处理大规模数据（也即所谓更多的“非结构化数据”）能力的时候，我们需要新的理念和工具去重新认识这个世界了。

新的理念运用于工具上的体现之一是光场相机Lytro。与其它数码相机不同的是，Lytro相机可以在拍摄完照片之后再对焦。因为在拍摄时，Lytro可以记录整个光场里所有的光，照片具体生成什么样，拍完之后根据需要再决定。——有没有发现这颠覆了我们做事的一贯逻辑？以往我们因为受制于工具或金钱，需要提前想好我们的目的，再去获取我们需要的信息。而大数据时代的思维方式则如Lytro的特性一样，先拍下来再说，需要什么样的照片，后期再处理。Lytro相机也算从胶片机过渡到数码相机交叠时代思维的延续，如果摄影技术不太好，先拍一堆片子再说，你总能挑出几张好的来。

对小数据而言，最重要的要求是减少错误，保证质量。而大数据对更糙的信息及冗余信息容忍度更高，也即当资源足够丰富且廉价的时候，可以先大量浪费，再来精准化。而不是预设精准的目标。亚马逊早期雇佣了一群书评家为读者荐书，后来发现通过算法——一群对图书质量判断能力远不如专业人士的普通读者的口味的集合——推荐图书的转化率更高之后，亚马逊把书评家们都解雇了。由于自己多年积累被算法取代的愤怒，在被解雇之后，书评家发出这样的抱怨：（通过算法推荐）“那种感觉就像你和一群脑残在一起逛书店。”类似的故事也发生微软。微软机器翻译部门的统计学家们在茶余饭后闲聊中会说，每次一有语言学家离开他们团队，微软机器翻译质量就会变得更好一点。

从对信息质量的角度出发去观察，我们会发现大数据时代的特性的确越来越“脑残化”：它放弃原始数据的精确性，强调数据量的多和杂；它放弃因果关系的判断，强调相关关系；它放弃知其所以然（为什么），只需知其然（是什么）就可以了。豆瓣阅读为什么给你推荐《中国合伙人》？背后的逻辑可能是你的朋友最近点了“想看”或“看过”。新浪微博为什么推荐李承鹏而不是李开复给你关注？背后的逻辑可能是你关注的人中更多人关注李承鹏。但为什么因为朋友喜欢，所以机器就会判定你也会喜欢呢？不知道。机器通过计算得知，如果你有很多朋友喜欢同一个事物，那么你喜欢这个事物的概率会大一些。可能对，也可能错。二者之间强相关，但不因果。

大数据最大的用途之一是预测。好的方面，它可以预测机票价格走势，为自费旅游者省钱；它能预测交通拥堵情况，帮助人们选择更好的时段和路线节省出行时间；它也可以像亚马逊做的那样，为你提供更准确的书单，帮你遇见更多好书。《麻省理工科技创业》曾报道说，英国伯明翰大学的一个研究团队甚至开发出一种算法，可以精确地预测你未来将要去哪里。大多数人一般有规律的行为模式，但传统的预测算法——只通过用户本身的行为模式来进行预测，解决不了人们临时变更路线的情况，导致预测人们出行的平均误差高达1000米。伯明翰大学开发的算法可以通过追踪用户手机上的个人过往行为模式数据以及用户手机里的社交关系——当然，新型算法需要收集和分析大量个人信息。最后能预测用户在24小时之内会去什么地点，而平均误差减少到仅20米。

如此精准的研究结果让人惊喜——细想过后，可能给人带来更多的是惊讶，或惊恐。没有人希望自己的正常出行被别人预测——机器竟然比我自己还了解自己，我连三小时后我会干嘛都不知道呢！这提醒我们在大数据时代，我们将面临的隐私问题的严峻。

在小数据时代，数据采集者需要告知数据提供者其采集的数据用途为何；但在大数据时代，这样的信息管理方式已经失效。舍恩伯格在书中指出，“大数据”将颠覆隐私保护法当下以个人为中心的思想。比如许多公司采集用户数据时的目的与最后使用的目的往往不同，而且在未来，大数据的价值不再单纯来自它的基本用途，更多来于它的二次甚至多次利用。但有时候即使个人不同意，也会为公众带来隐私问题。以Google街景项目为例，Google采集了街道上的几乎全部信息，如果有某个人不同意ta的数据显示在Google街景中，Google会将该信息模糊化处理。但当其他人的信息都完整呈现在街景图中时，“马赛克”（模糊化处理）的部分反倒成了焦点——本想隐藏掉的信息反倒成了此地无银三百两式的焦点。未来的个人数据采集与数据授权，需要替换掉目前的隐私保护方案。

舍恩伯格在书中举的更讽刺的案例则是，2007年，英国报纸London Evening Standard一篇报道称，在乔治·奥威尔创作《1984》的地方，也就是他在伦敦公寓方圆183米范围内，有32架摄像机。如果奥威尔生活到现在，看到此情此景，他会做何感想？

最后编辑于：2017.11.26 17:30:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345

大数据时代，让一群脑残为你选书

推荐阅读更多精彩内容