在《智能时代》一书的扉页也写着这样的话:
2%的人将控制未来,成为他们或者被淘汰。
当时罗辑思维的罗振宇老师也是多次用这句话来“煽动”他的粉丝来读这本书,作为他的粉丝之一,我成功地被他洗脑,入手了这本书。当时买这本书没有社么崇高的理想,就是想知道,我还有没有机会进入2%,就这么满怀私心。
因为怀着私心,很多内容也没有很深的理解,只是觉得新鲜有意思的时候,标一条下划线,总觉得自己的理解不深,不如返回来,重新读一下自己做过标记的地方,还有自己的笔记,多一次对这本书的思考。
这本书总共有七章,按照我自己的理解,前三章是关于大数据理论的介绍,后面四章更多是大数据的实际应用。一次重读全书对于自己挑战太大,这次还是着重温习一下前三章了。
数据的相关性
在讲大数据之前,首先要说清楚什么是数据。老师首先用通俗易懂的方式讲了什么是数据,并介绍了使用数据的关键是找到数据之间的相关性。这里老师举了一个例子,日本人通过1964年中国的《人民日报》上刊登的铁人王进喜的照片,分析出许多关于大庆油田的信息。通过这个例子,我的认识是,数据一直在那里,用不用,如何用,是我们需要考虑的。通过这张照片,一些人看到的是王进喜先生充满坚定的神情,另一些人则判断出这是中国极北的地区,油田的产量和油井的直径。
老师在后文中写道:
谁掌握了信息,谁就能够获得财富,这就如同在工业时代,谁掌握了资本谁就能够获得财富一样。
但在书中也提到,有很多公司拥有很多其他公司求之不得的数据,却不懂得如何利用,用吴军老师的话说,就是“拿着金饭碗在要饭”。所以,掌握信息只是前提,还是要有一双慧眼,能够看得出数据之间的相关性,并能够从去获取解决问题的方法。这就需要我们对于数据有真正深入的理解,并且乐于思考如何将这些数据与待解决的问题联系起来。
数据驱动
建立数学模型的时候,可以选择用复杂的模型来切合数据,也可以用很多简单的模型来契合数据。数据驱动就是采用后一种方法。而且随着数据的急剧增加,想要直接设计出完全契合这些数据的模型,需要很多理论是上的突破,这是非常困难的事情,而采用数据驱动的方式,灵活的增加和组合简单的模型,随着数据的增加,可以更好地反应真实的世界,因而优势越来越明显。
用来说明数据驱动的一个很好的例子,就是战胜天才围棋选手李世石的AlphaGo。AlphaGo之所以能在短期内获得如此高的智能,是因为他能从快速几十万盘人类高手对弈的数据,并且在此基础上得到一个统计模型。而且数据驱动,本身就有一份数据作为动力的含义。对于这份含义,吴军老师更是明确表明观点:
如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力,那么数据将成为下一次技术革命和社会变革的核心动力。
临渊羡鱼,不如退而结网,既然在不远的将来数据将成为核心动力,就应该多接触收集和处理数据的方法,让自己在思想上进入大数据时代。
大数据思维
英语中的big data,区别于large data和vast data,强调的是相对小而言的大,是抽象意义上的大。这个说法传递了一种信息——大数据是一种思维方式的改变。当我们来到大数据时代,数据量比之前大了很多,量变带来了质变,相应的,思维方式,做事的方法就需要和以往不同。简单说,我们需要拥有一种大数据思维。
在具体介绍大数据思维之前,老师讲了关于机械思维的发展历程。牛顿通过自己的伟大成就宣告了科学时代的来临,通过他的理论,人们精确预测了1000之后的日食和月食的时间,让确定性这个词“深深地引入人类的思想中”。机械思维为工业大发明时代奠定了基础,瓦特的蒸汽机对当时很多传统的行业都产生了颠覆式的影响。用一个公式表示,就是:现有产业+蒸汽机=新产业。另外一名著名的科学家爱因斯坦,作为近代物理学的集大成者,在物理学几乎每个领域都有所建树,但是他的思维方式其实和牛顿是一致的。爱因斯坦有句名言“上帝不掷筛子”,表明了他思维中的确定性。
与之相对的,是建立在不确定性上的信息论。想要消除不确定性,就需要引入信息。至于引入信息量的大小,则取决于系统中不确定性的大小。
用不确定性这种眼光看待世界,再用信息消除不确定性,不仅能够赚钱,俄日全额能够把很多智能型的问题转化成信息处理的问题,具体说,就是利用信息来消除不确定性的问题。
大数据的科学基础是信息论,它的本质是利用信息消除不确定性。
这里老师举了一个例子:通常而言,研发一种新药,需要投入20亿美元的时间,花将近20年的时间。但是斯坦福大学医学院发现,治疗心脏病的某种药物对治疗某种胃病特别有效。为了证实这一点,只需要花费3年时间,成本是1亿美元。这就是大数据思维的好处,前提是要有足够多的数据。
在大数据时代,我们能够得益于一种新的思维方式——从大量的数据中直接找到答案,即使不知道原因。这一方面给了我们一个找捷径的方法,同事我们不会因为缺乏运气而被问题难倒。另一方面,这种找不出原因的答案我们是否敢于接受呢?如果我们愿意接受,那么我们的思维方式已经跳出了机械时代单纯追求因果关系的做法,开始具有大数据思维了。
与其焦虑没有合适的解决方法,不如着手收集相关的数据,分析数据和待解决问题的相关性。这样能够更快地解决问题,而且随着数据的增加,可以解决更多更为复杂的问题。
在吴军老师这本书中,我最喜欢的是他写的这句话:
写书表达思想是一件颇为主观的事情,最重要的不是避免犯错误,而是不可缺乏思想。
也许并不是准确的2%,不过这足以说明想要获得大数据带来的福利,只能是一小部分人的特权。至于这一小部分中有没有你我,就是要看我们在了解这一点之后,如何采取下一步行动了。