你准备了好么:大数据时代的生活、工作与思维(之一)
炎炎夏日,躲在书房里,一口气读完了这本《大数据时代:生活、工作与思维的大变革》([英]维克托·迈尔-舍恩伯格,肯尼思·库克耶 著 )。
拿起一本书,读过几页后就能让人有强烈的阅读欲望,思维腾跃,读后畅快而眼前为之一亮的,这种体验并不常有。在我几十年的读书经历中,读此类书,能有这种感受的也就这么几回:80代中期读过的《第三次浪潮》、90年代后期读的《数字化生存》、6年前读过的《世界是平的》。今天回头看看,这几本书所写的,至今依然直接而深刻地影响我们的生活、工作与思维。
此书出版时间不长,获得很高的评价,诸多专家们已经有了精到的评论,无需我置喙叨絮。
书中有一节“大数据,大挑战”谈到:
“大数据的核心代表着我们分析信息时的三个转变。这些转变将改变我们理解和组建社会的方法。”
三个转变是:
第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。但高性能数字技术的流行,与局限在小数据范围相比,使用一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节—大数据让我们更清楚地看到了样本无法揭示的细节信息。
第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。在这个大数据时代,在很多时候,追求精确度已经变得不可行,甚至不受欢迎了。当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。
第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大了。
“三个转变”是本书的核心观点和精髓,很有启发。但过于“形而上”或者说“哲学意味”很浓,需细细品味,才能悟出个中真谛。我更希望与各位分享书一些有趣的描述,还有自已读书时杂乱而肤浅的点滴感受。
(一)从Google的神奇认识大数据时代
“Google就像上帝,无处不在,上帝洞察万物。”——几年前读《世界是平的》,书中印象深刻的一句话。今天互联网上的Google,不仅其强大的搜索引擎,似乎是无所不知地随时随处解答我们的咨询和疑问,Google翻译几秒钟内就可将整篇文章进行多种语言的翻译,还可以字正腔圆的朗读。Google地图不仅让你很快找到目标的地理方位,还可以计算出行时最合适的路线和里程,还可以通过卫星地图身临其境地看清地形地貌和城市街道概貌。
Google的街景,让我足不出户就可以看到儿子在大洋彼岸居住和工作的场景。还在试验中的Google眼镜、Google无人驾驶汽车等,其神奇之处,更是让人匪夷所思!
这本《大数据时代》书中特别引用了Google许多成功案例,生动地解读大数据时代的特点和影响。其中有这样一个事件:
在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。
所以,2009年甲型H1Nl流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。
通过建立数学模型和相关数据分析,“他们的预测与官方数据的相关性高达97%。和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到”。
Googl是并不是专业公共卫生机构,但对流感的预测则做得如果准确、高效,这是大数据时代的神奇!“这是当今社会所独有的一种新型能力;以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。”
书中还有一个与商业服务有关的案例:
美国最有名的计算机奥伦·埃齐奥尼一次乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜,但在飞机上,他好奇地问邻座的几位乘客,当得知虽然他们的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。飞机着陆之后,埃齐奥尼下定决心要帮助人们开发一个系统,用来推测当前网页上的机票价格是否合理。开发了名为Farecast票价预测工具,通过预测机票价格的走势以及增降幅度,帮助消费者抓住最佳购买时机。
这个系统为了保障自身的透明度,会把对机票价格走势预测的可信度标示出来,供消费者参考。埃齐奥尼找到了一个行业机票预订数据库。有了这个数据库,系统进行预测时,预测的结果就可以基于美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出。如今,Farecat已经拥有惊人的约2 000亿条飞行数据记录。利用这种方法,Farecat为消费者节省了一大笔钱。
据说,Farecat卖了给微软,成了必应(Bing)旅游的机票查询,我试用了一下,以预订旧金山至纽约往返的航班为测试,结果不仅列出同一航线不同航班的价格,还有预测提示:
提示:可以订购,可能涨价:50美元,预测可信度:80%。但是,试用此工具查询国内航班,得不到预测信息。可能是我们的民航票务机构没有提供数据库
(二)大数据时代,不是神仙也会预测
书中一个有趣的故事:
一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说:“我女儿还是高中生。你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。”
塔古特公司怎样在不被清楚告知的情况下预测出一个女性的怀孕情况的?原来该公司使用大数据的相关关系分析已经有多年,基本上来说,就是收集一个人在商场购物时可以收集到的所有数据,然后通过相关关系分析得出事情的真实状况。商家大数据相关关系的分析结果竟然比女孩身边的父亲更早了解实情。
这样生动有趣的故事书中还有许多,可读性强正是本书的特色之一。大数据分析的准确性,在商业领域运用很多。如美国亚玛逊公司,曾经组织专门的书评团队,研究顾客的喜欢,推荐图书,后来发现,利用计算机自动收集数据分析形成的个性化推荐系统更有效,据说三分之一的销量就是来自于这个系统的推荐,最后也就将书评团队解散了,人工评论的成本是非常高的。这种基于大数据分析工具的预测,往往比人的反应能力快得多。如我们使用Google或百度搜索时,输入出错,自己还未意识到,计算机就已经提醒你了,其实这只是计算机在大数据时代的“小试牛刀”!目前,商业领域,保险、信贷、投资银行等,已经利用大数据的信息分析,评估预测客户的信用、偿还能力和潜在风险等。
书中写道:
大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据时代已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。
当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在犯罪分子上。
就像互联网通过给计算机添加通信功能而改变了世界,大数据也将改变我们生活中最重要的方面,因为它为我们的生活创造了前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。
想想,不久将来,能通过对自已的基因排序作海量数据分析,预测出潜在的疾病并事先采取应对措施,将是多么动人的前景!而识别潜在的犯罪分子,在他们还没有行动之前警察就出现在面前,我们的生活不是更安全一些吗。但是,大数据分析出来的犯罪是否可以成为治罪的依据,涉及到许多不同于“小数据”时代的法律问题,书中有专章讨论。
可以相信,大数据时代带来的思维变革很快会在商业服务、经济发展、日常生活、社会交往等方面带来巨大的影响和诱人的前景,也会给我们的社会管理提供新的、更加有效的思路和方法。