梳理:
首先,作者抛出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。紧接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力。最后,作者冷静描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境,数据安全隐私,信息公正公开等问题。
引言:
人类学家克里福德·吉尔兹在其著作《文化的解释》中曾给出了一个朴素而冷静的劝说:“努力在可以应用,可以拓展的地方,应用它,拓展它;在不能应用,不能拓展的地方,就停下来。”我认为这可以是人们面对一个新领域或新概念时应该有的态度。而我们现在就来到了这个新领域,大数据的道路上没有戈多,我们已经在路上,晃晃悠悠。
文中观点:
1、大数据时代,公共卫生的变革
“2009年的新型流感病毒——甲型HIN1流感,迅速传播。公共卫生专家能做的只是减慢它的传播速度。在甲型HIN1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。
发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。
虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到关于流感的信息,如“哪些是治疗咳嗽和发热的药物”,但是找出这些词条并不是重点,他们也不知道哪些词条更重要,更关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是——特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。谷歌公司为了测试这些检索词条,总共处理了4.5亿个不同的数字模型。在将得出的预测与2007年、2008年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性高达97%。和疾控中心-样,他们也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在几周之后得出。所以,2009年甲型HIN1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。”
以上这一个例子,可以说是很好地展现了大数据时代的思维变革。在2009年,谷歌就已经利用利用大数据分析流感传播路径,推动公共卫生变革了,在21世纪的今天,在新型冠状病毒肆虐的时期,“健康码”出现。“健康码”是以真实数据为基础,由市民或者返工返岗人员通过自行网上申报,填写实际住址、身体健康状况、有无去过疫区、有无接触重点人员等信息,经后台审核后,生成的属于个人的二维码。三色码的生成主要依据三个维度赋分:一是空间维度,即根据全国疫情风险程度,按照精确到乡镇(街道)的数据判断;二是时间维度,即某个人去过疫区的次数及停留的时间长短;三是人际关系维度,即与重点人员的接触状态,然后量化赋分。数据依托来自于国家和各部门、各区域汇聚的数据,经过防控规则和数据建模,分析评估后,测算出三种风险状态。三种颜色实行动态管理,领取绿码的人员如若去过重点地区,接触过重点人群,健康码会转红,领取红码和黄码的人员需按规定隔离并健康打卡,满足条件后将转为绿码。由于支付宝和微信这些软件具有非常庞大的用户群体,且用户都是实名制,能保证个人信息都是真实的,所以天然比其他科技公司更具有开发健康码的优势。
健康码成功的背后,是大数据推动下的公共卫生的变革;是思维的变革;是历史的进程:即打破科层壁垒、向管理索求效率的理念正在深入人心。
2、量变导致质变
就如同量变导致质变的隐喻一样,铜本来是可以用来导电的物质,但是它一旦到达纳米级别就不能在磁场中导电了。书中认为“大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知,创造新的价值的源泉:大数据还是改变市场,组织机构以及政府与公民关系的方法。”而谷歌之所以能够几乎实时,几近完美地给出和基于大量真实病例信息所得到的与流感情况一致的结果,与存在供其分析的数千亿记的数据项是分不开的。
3、数据化
大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。而数据化在书中的解释则是:透明化,信息化。通过量化的方法将内容转化为数据。
“2004年,谷歌发布了一个野心勃勃的计划:它试图把所有版权条例允许的书本内容进行数字化,让世界上的所有人都能通过网络免费阅读这些书籍。为了完成这个伟大的计划,谷歌与全球最大和最著名的图书馆进行了合作,并且还发明了一个能自动翻页的扫描仪,这样对上百万书籍的扫描工作才切实可行且不至于太过昂贵。
刚开始,谷歌所做的是数字化文本,每一页都被扫描然后存人谷歌服务器的一个高分辨率数字图像文件中。书本上的内容变成了网络上的数字文本,所以任何地方的任何人都可以方便地进行查阅了。然而,这还是需要用户要么知道自己要找的内容在哪本书上,要么必须在浩瀚的内容中寻觅自己需要的片段。因为这些数字文本没有被数据化,所以它们不能通过搜索词被查找到,也不能被分析。谷歌所拥有的只是一些图像 ,这些图像只有依靠人的阅读才能转化为有用的信息。
虽然这是一个现代的、数字化的亚历山大图书馆,比历史上任何一个图书馆都要强大,但谷歌依然希望它能做得更多。谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。
如今,不仅人类可以使用这些文本信息,计算机也可以处理和分析这些文本数据了。通过检索和查询,我们可以对它进行无穷无尽的文本分析;也可以揭示一个词以及词组第一次出现的时间及其成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹。这种分析支持好几种语言。”
而亚马逊拥有数据化的书籍,却不曾挖掘书籍数据化之后的附加价值。该公司创始人兼执行总裁贝索斯说服了上百家出版社在Kindle上发布它们的图书,所以Kindle的图书并不是数字图像,人们可以更改字体大小和用黑白以及彩色两种方式看书。这些书籍是数据化了的,不只是数字化。事实上,亚马逊把上百万的新书都数据化了,而谷歌却在费力地数据化很多旧版本的数据。然而,亚马逊把它的眼光聚焦于用来阅读的书籍内容上,而不是分析数据化文本上。当然,有可能它面对了来自传统出版社的压力,后者可能限制了书籍内容的使用方法,毕竟版权在人家手中。谷歌,作为一个喜欢跨界的叛逆的大数据公司,就没有这样的压力了,毕竟谷歌的资源来源于用户点击,而不关出版社什么事。至少现在,可以不失公允地说,亚马逊深谙数字化内容的意义,而谷歌触及了数据化内容的价值