美籍俄裔物理学家乔治·伽莫夫在其科普读物《从一到无穷大》一书中讲了一个原始部落的故事。两个酋长要比一比谁说的数字大,一个酋长想了想先说了“3”,第二个酋长想了半天,说,你赢了。
今天计算机使用的ipv4地址采用32位二进制表示,共有4,294,967,296个地址,由美国人于1981年提出定义,然而到了今天ipv4的地址资源已接近枯竭。改进升级版的ipv6协议,将地址表示扩展到了128位,由此产生的地址据说可以给地球上的每一粒沙子编一个ip。这仅仅是为每台计算机编门牌号码的数量,由此扩展到每台计算机产生的数据量,人类所产生的数据量或许可以给宇宙中的每一颗粒子编一个号码了。
这就是我们今天面临的世界,科技革命将新世纪的人类带入了一个信息爆炸的时代。今天所有人在面临与部落酋长比数字的问题时都不会再从3开始了,可事实上仍然有太多人的头脑却依然停留在与三比较的时代,我认为这是吴军博士这本《智能时代——大数据与智能革命重新定义未来》所探讨的一个核心问题。
书中简要梳理了人类文明进步的知识模型:从对外界环境的观察思考以及互动中产生了文字记录和数据计数的需求,数据进一步成为信息储存的载体,对数据和信息的抽象处理,使人类得以积累更多的知识,并在一代代的传承和创新中推动者人类改造世界的脚步。作者进一步提出“如果把资本和机械动能作为大航海时代以来全球近代化的推动力,那么数据将成为下一次技术革命和社会变革的核心推动力。”
为了支持这一观点,作者结合自身从学从业的所见所闻所思,为读者阐述了大数据推动机器智能发展的研究进展。比如2005年首次参加NIST主持的机器翻译测评比赛的Google团队,4项测评结果均领先了其他研究团队一大截。谷歌的秘密武器只是它应用了比其他研究单位多几千倍甚至上万倍的数据,而机器翻译的方法还是以前的方法。谷歌实际上采用了数据驱动的方法,将机器翻译的模型训练得更加完善。
机器智能的定义源于图灵提出的判别方法,即图灵测试。让一台机器和一个人坐在幕后,让裁判同时与幕后的人和机器进行交流,如果裁判无法判断自己交流的对象是人还是机器,就说明这台机器具备了和人同等的智能。
大数据在机器智能这一领域中的成功应用,促使人们从思维深处开始思考大数据的真正力量。过去三个多世纪以来促使科学不断进步的思维方式是机械思维:如欧几里得基于逻辑推理的公理化系统编写的《几何原本》,这种依靠五条公理直接或间接得出几何学的全部结论的方法,为几何学、数学、自然科学的发展奠定了基础,而且影响了西方人的整个思维方法。甚至法学界,罗马法也是建立在类似的公里系统之上,只是罗马法的公理是自然法。地心说的创立者托勒密总结出的方法论:“通过观察获得数学模型的雏形,然后利用数据来细化模型。”在今天仍有应用。笛卡尔提出了“大胆假设,小心求证”的方法论。
牛顿更被西方认为是人类历史上最伟大的科学家和思想家之一。他在科学上的最大贡献是用数据公式总结了宇宙万物运动的规律。作为思想家,他让人们相信世界万物的变化是可以认识的。他告诉人们:世界万物是运动的,运动遵循着确定性的规律,这些规律又是可以被认识的。18世纪英国最伟大的诗人亚历山大·蒲柏为牛顿题写的墓志铭讲到:自然和自然的法则在黑夜中隐藏;上帝说,“让牛顿去吧。!”于是一切都被照亮。但很快,一切又归于静寂,一如从前。
Nature and Nature's laws lay hid in night;
God said,"let Newton be!" and all was light.
Soon,everything returned back to the dark as AIl be there…
机械思维直接带来了工业革命。工业革命最著名的标识是瓦特和他发明的蒸汽机,但事实上在瓦特之前蒸汽机已经存在了。那时的蒸汽机多为特定目的设计和制造,很难从一个厂拆下用到其他地方。瓦特则运用机械思维的原理,设计了蒸汽机的通用模型,此后瓦特蒸汽机使得瓷器制造从供不应求变成了供过于求;使人类有了第一辆机械动力火车;使人类有了机械打字机。美国人则利用物理学知识和机械原理发明了轧棉机,使摘棉籽的效率提供了50倍,彻底改变了南方种植园经济,间接导致了南北战争。
进入新世纪以来机械思维的局限性日益显现,因为并非所有规律都可以用简单原理描述,而且简单因果关系的发现越来越困难。人们也逐渐意识到世界本身存在着很大的不确定性。爱因斯坦认为的“上帝不掷色子”面临着越来越多的挑战。量子力学、微观粒子的研究使人们不得不寻找替代机械方法论的新思路。
用于度量不确定性的信息论为理解世界提供了新角度。如果我们需要搞清楚一件非常不确定的事,就需要了解大量的信息,也就是说信息的度量就等于不确定性的多少。这样当我们面临不确定性世界,我们就可以利用数据或信息来消除不确定性。而今天的大数据已经具备了数据量大、多维度、完备性的特征,可以将许多智能问题转化为数据计算问题。
Google的搜索质量问题很好的反映了从机械思维的因果关系到数据思维的相关关系的转变。2005年之前,谷歌发现搜索结果相关性不好时,仍然遵从先分析原因,再寻找答案的方法,每年可将搜索质量提高3-5个百分点。但随着搜索质量的不断提高,到了2005年时候,进步幅度已经越来越慢了,甚至一年都不到一个百分点。后来谷歌发现搜索质量和用户点击数据存在很强的相关性,比如对“虚拟现实”这个词,A网页点击了30000次,B网页点击了20000次,C网页点击了10000次,那么网页A应该被排在第一位,而按照算法优化的排序可能出现B排在第一位情况。谷歌后来依据用户点击数据建立了模型,并把它加到了搜索排序算法的参数中,这样子用户点击的数据越多,呈现出来的排名顺序越准确。今天的搜索引擎中,因果关系的重要性已经让位于数据相关性了。
作者认为落后与先进的差距不是购买一些武器或引进一些技术就可以弥补的,落后最可怕的地方是思维方式的落后。这就像是术与道的关系,道是根本,术只是自然而然的结果。甚至人与人之间的差别也是这样,物质财富的差距不可怕,可怕的是别人的大脑早已前进到了下个世纪,而自己的认知却只是停留在昨天。
今天大数据思维早已不是书本上的文字,它已经开始影响并改变社会的方法面面。书中介绍的许多例子着实让人脑洞大开:警察局根据家庭用电数据量的统计分析发现了藏在郊区的大麻种植别墅;塔吉特超市根据顾客的购物记录推测出一个十几岁女孩已经怀孕了,甚至女孩的父亲都还不知道;通过RFID技术收集酒吧经营的各项数据可以让老板为不同的时间的为不同的顾客推荐一杯他最喜爱的酒;普拉达的智能试衣间可以让它精准掌握衣服设计制作和销售的准确信息;谷歌的自动驾驶汽车则建立在谷歌街景项目对道路空间的立体式扫描基础上,对驾驶过程中可能出现的各种问题提前做出预判。
大数据已经进入到社会的方方面面,那是不是每家企业都要建立自己的大数据部门呢?作者认为这类问题没有简单的“是”或“否”的答案,需要因时而变,但每家企业都要有大数据的思维去审视观察自己的原有产业。
工业革命的实质是: 现有产业+蒸汽机=新产业
电力革命是: 现有产业+电=新产业
信息时代的未来则是: 现有产业+大数据=新产业
现有产业+机器智能=新产业
大数据的数量大、维度多、数据完备等特点,也使得它的收集、存储、处理、应用需要采用新的思路,其发展和应用过程也必然会带来新的技术难题:如数据安全、隐私保护等。但随着技术的不断成熟发展,大数据革命再造社会的未来已不再遥远。以色列的高科技农业使其在沙漠上种出了大片绿洲;利用数据精确决策的金州勇士队短短六年从联盟倒数第二成长为一流队伍;时尚酷炫的特斯拉公司的工厂机器人数量远超流水线工人;可以远程看病的IBM沃特森计算机、可以做手术的机器人达·芬奇手术系统、致力于破解人类衰老秘密的Calico公司已经在改变医疗业成本过高、医疗资源不均衡的现状。今日头条的写稿机器人已经在里约奥运会的新闻战场小露锋芒了。大数据打来的产业升级和产业变迁已经就在眼前,那么问题来了:机器什么事都可以做,还比人类做得更好,人类该怎么办?
随着大数据和机器智能的不断普及,机器将越来越多的取代人类的工作机会,现在可能还是悄无声息的改变,但复利累积的曲线一旦突破拐点,我们将发现时代完全变天了。社会资源利用率极大提高的智能社会、个性化产品和服务成本大幅降低的精细化社会、个人信息几乎透明的无隐私社会正在成为可预见的现实,新的科技革命的拐点正在逼近。
今天我们讨论科技革命时,总是认为它推动了社会的发展、人类的进步。马克思也说“资产阶级在它不到一百年的阶级统治中所创造的生产力,比过去一切时代的全部生产力还要多、还要大。”但当我们退回到工业革命发生的时间节点上,你就会发现18世纪工业革命开始伴随着的是大量小作坊破产,原本富有的工匠很快沦为赤贫,18世纪末到19世纪上半页是英国贫富分化严重、社会矛盾重重的半个世纪。随着英国不断对外扩展,开拓全球殖民地,推行自由贸易,使得英国慢慢进入“日不落帝国”的全盛时期。1851年在伦敦水晶宫举行的第一次世界博览会集中展示了工业革命的成功,参观展览后的维多利亚女王,兴奋地不断念叨着“荣光啊,荣光,无尽的荣光。”全世界范围内享受工业革命的成果则又等到19世纪中叶。
第二次工业革命电力革命几乎复制了蒸汽机革命的三个阶段。1870年开始电力革命的美国首先诞生了钢铁大王卡内基、石油大王洛克菲勒等,但下层社会的生活十分悲惨。经过半个多世纪的努力到了19世纪20年代,美国才基本实现全面繁荣,进入所谓“柯立芝繁荣”。而全世界大部分地区享受电力革命的成果,几乎是在二战之后才开始的。即将到来的智能革命的冲击也避让将遵循这样的逻辑,这就是科技革命的趋势力量,任何国家和组织对此或许都是无能为力的。
在历次技术革命中,一个人、一个企业、甚至一个国家,可以选择额道路只有两条:要么加入浪潮,成为前2%的人,要么观望徘徊,被淘汰。
那么作为个人如何面对现实,让自己尽早的享受到智能革命趋势力量的好处呢?作者给出的答案很简单:争当2%的人,而不是自豪的宣称自己是98%的人。当然这也不是说我们都要学习机器智能,精通大数据,但要成为2%,至少要接受一个全新的思维方式,能够乘着大数据和机器智能的踏板在未来冲风破浪。