吸引人之处
正如豆瓣上许多评论所说的,《大数据时代》无非就讲了三件事情:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。在字面上,我们能毫不费力地理解这三句话。但是,此书并不像某些评论所说的用几页PPT就可以讲清楚,因为我们并不仅仅看看观点态度,作者的想法也并不能被完全接受。
在读这本书的第一部分:大数据时代的思维变革之前,也就是作者集中阐述自己的理论的部分,我本以为会枯燥无味,可作者丰富的论证、大量的实例和分析渐渐将我引入了大数据的思维当中。正是作者丰富的实例论证让这本书决不能仅靠几页PPT代替,甚至,也不能被同类别的其他书籍代替。
我对全书最感兴趣的也在于这些不胜枚举的例子,它们引发了我的一些疑问和创意联想。
一 关于《大数据时代》的局限性的思考Ⅰ
作者过分强调了大数据的预测功能
大数据确实拥有强大的预测能力,在书中也有流感预测,怀孕预测,机票价格预测等等。但是我觉得作者着重说明的是知道某件事将会怎样是很重要而且有用的,但却轻视了知道该事目前是什么状态的重要性。
就中国来说,春运期间,百度和阿里可以基于前几年的数据预测今年选哪种交通方式最好,在什么时候买票最可能买到,走哪条线路最通畅。但是,第一,春运的规模之大,不可能所有人都选到了最好的方式,因为我国交通系统发送旅客的能力有限(我认为,预测应以所有人快捷出行为目的,如果事先考虑交通系统发送旅客的能力,那永远不能把所有人都送往目的地)。第二,即使所有人都选到了比较适合的方式,大数据也只是提供了概率,途中将有可能发生许多意外。第三,在出了意外后,大数据在多长的时间内才能提供新的方案呢?(书中一个没有说明的问题就是进行大数据分析的时耗问题,尤其针对春运这种规模大,紧急度高,分析工具和技术不成熟的情况,大数据能提供即时预测吗?)
所以,为了缓解出现意外而造成的不便,拥有诸如百度迁徙之类的应用不是更好吗?同样是基于大数据,这种反映实时情况的应用可以即时更新各种出行数据,没必要做预测,让人们根据情况自行选择处理意外的方式。把预测和实时情况都做出来,这样优势互补,效益更大。
当数据牵涉的是大量的人或者大量的资金时,预测的结果必须相当精确才行,否则仍会引起强烈的不满或蒙受巨大的经济损失。
二 关于《大数据时代》的局限性的思考Ⅱ
作者对于商业之外的例子阐述不多
原因可能有三:1.作者本来就是针对商业而写书;2.商业之外的实例集中在政府、公益、城市发展、航天、军事、环境保护、自然科学等方面,可能这些方面的实例不多,或者有的不能公开;3.将大数据思维运用于这些方面并不能起作用,即使我们已经获得了巨量数据并且知道其中蕴含着巨大的价值。
我认为,大数据时代更多的是浅层次的改变人们的生活,却对能产生深远影响的一些基础学科的研究帮助不大。打个比方,工业革命带来了科学与技术的腾飞,而大数据时代只带来了技术的发展。也就是说,大数据只是改良蒸汽机的发明,而不是电磁波的发现。事实上,从维克托“不是因果关系,而是相关关系”的观点上就否认了大数据对于科学的贡献,因为科学就是要探寻事物间的因果关系。
基于上面的认识,大数据在商业之外,还可以在政府主导的智能城市建设和公共安全等方面发挥巨大作用。以公共安全为例,通过综合城市的航班、火车、动车、大巴、地铁、公交、监控信息,再辅以实地走访盘查,公安人员可以越来越容易地掌握犯罪嫌疑人的行踪,甚至可以不走出公安局的大门,便可找出罪犯。在没有收集城市方方面面的数据之前,这些工作是无法完成的,这是大数据的功劳。
但到了自然科学方面,情况却不怎么乐观了。例如,人们最关心的全球变暖问题、天气预报、地震预报等等。对于二氧化碳的温室效应,人们已然收集了大量的数据,可至今人们却连全球是不是真的在变暖都不清楚。至于天气和地震的预报,都只能做出短时间的预测,要做到在自然灾害发生之前就安顿好群众,任重而道远。
再看,环境保护近年来受到全世界人民的关注。要进行环境保护,我们就得研究生物群落,甚至整个生物圈。可我们现在对于生物群落的研究仍在观察与描述阶段,就像林奈时代那样只是做一些分类工作而已。
综上所述,我认为大数据在商业之外的领域发挥的作用不大,这是技术的日臻完美,但科学并未向前推进。
三 关于大数据时代的局限性的思考Ⅰ
创造性和求知欲
大数据无法预测出汽车和iphone将会风靡全球,因为它们是被新创造的东西。书中也提到了这一点,如果福特当初问他的顾客需要什么,那一定是一匹更快的马,乔布斯也完全没有做市场调查,他说:“消费者不需要了解自己想要什么。”
创造性一直是人类进步的助推手,但是在大数据时代过分挖掘数据的相关性会带来一些严重的后果:
1.数据独裁
在数据的支配下,人们总是依据过往的数据进行判断,渐渐被数据绑架。正如书中写到:大数据诱使我们犯下罗伯特·麦克纳马拉所犯的罪行,也让我们盲目信任数据的力量和潜能而忽略了它的局限性。
2.创造力缺失
在大数据的影响下,我们再也不会提出新的理念、推出新的产品,因为大数据也不知道人的思想正不正确、这个东西会不会卖得很好,不知道什么东西能让大众的生活更美好。
受相关关系的影响,人们不再专注于探究事物背后的本质,科学家将缺失,基础科学将停滞不前,世间一切都将变得如巫术一般。
四 关于大数据时代的局限性的思考Ⅱ
全体数据?相关性?
当我们检测一个轴承厂生产的轴承的合格率时,按大数据思维,我们应该全部检测。因为只有这样,我们才能做到样本=总体。
当我们预测流感趋势时,按大数据思维,我们应该用无数个数学模型分析无数个关键字,而不只是谷歌当时所限定的少数几个词。因为只有这样,我们才能发现相关关系最强的那一个词。
然而,我们做不到也不想那么做。
为什么我们要抽样呢?就上面的例子来看,全面检测会消耗比抽样时多得多的财力和时间以及可能存在的其他消耗。
而为什么进行流感预测时我们只选特定的几个词呢?因为这些词显然与流感存在因果关系。比如,因为我怕被感染,所以我去搜索口罩的价格,或者有哪些预防药物,而不会去搜索喜马拉雅山上的雪有多厚。这样,我们也就被必要去计算雪的厚度与流感蔓延趋势之间的相关性了。
这样看来,作者对于全体数据和相关性的说法似乎绝对了一点。
总结
我倒是喜欢大数据存在的种种局限性,因为这些地方就是将来我们需要攻克的地方,也是新的变革发生的地方。
最后引用作者的话:“大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。”�