大数据--趋势和特点

图片发自简书App

欧几里得的《几何原本》是基于逻辑推理的公理论推论,为后来的几何学、数学和自然科学奠定了基础;托勒密的地心说将欧几里得的这套方法运用到天文学中,建立起了一套完整并且严格的天体运动规律的理论体系;牛顿的力学三定律和万有引力定律破解了宇宙万物运动之谜,同时宣告了科学时代的来临。

这些伟人的思想如果上升到哲学高度,其方法论其实是一脉相承的,可大体概括成如下几句话:世界变化的规律是确定的,且这些规律是可以被认识的,而且可以用简单的公式或者语言描述清楚,最后这些规律应该是放之四海而皆准的。

正是在机械思维的引导下,才有了工业革命。在工业革命时期,人类创造了巨大的财富。马克思曾经说过:“资产阶级在其不到100年的阶级统治中所创造的生产力,比过去一切时代创造的生产力还要多,还要大”。同时由于机械思维的影响,人类的寿命也得到了大大的延长,在1800年之后,世界各国的人均寿命都先后翻了一番。

从工业时代到信息时代,再到互联网时代,机械思维的局限性已越来越明显。像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。人们越来越发现世界本身存在很大的不确定性。

我们可能已经察觉,现在如果仍然采用机械思维去思考世界,很多问题已经变得很难预测了。比如我们最常见的交通阻塞,近些年来一直是最严重的城市病之一,也是各国政府最头疼的问题之一。现在的处理手段无外乎新建公路、扩宽马路、增设人行天桥等,通过改善基础设施的方式来缓解,很明显这些手段的效果均不太理想;股票市场,投资人可能要考虑行业的发展、政策的导向、公司的业绩,甚至是大盘的情绪,而情绪是很难用公理论来进行推论的;现代医疗,治愈癌症是人类半个多世纪以来的梦想,人类在抗癌研究方面投入的资金比阿波罗登月或者语音识别要多得多。癌细胞是细胞在复制过程中基因出了错而产生的,并且癌细胞在扩散时自我复制也有可能出错,所以面对这种具有极强的不确定性疾病时,机械思维变得跟不上了。

如果用道家的“阴阳”理念来解释人类思维的发展,是否可以这么理解。当人类第一次面对极端不确定的世界时,机械思维得到了飞速的发展;而在人类对世界有了比较清楚的认识,很多不确定性都被认知后,当机械思维发展到极致时,所谓极阳之后必然转阴,又面临了更多新的不确定性问题。并且这次人类所面临的问题跟以前是不一样的,以前的问题是无法解决,而现在的问题是解决起来过于复杂,问题解决的速度赶不上新问题产生的速度。而在这些历史背景下,才产生了大数据思维。

那么,大数据到底是具有了什么特征,居然能够弥补甚至取代机械思维呢?以下从三个方面进行说明。

一、大数据的体量够大,能穷尽所有相关数据。

大数据最明显的特点就是体量大,这一点无论是内行还是外行都认可,没什么异议。我们国家仅仅北京的国家超级大数据中心,占地面积就8万平方米,包含9栋数据中心机房和1栋感知体验中心。试想:如果托勒密掌握了足够多的有关天体运动的数据,可能会提出更严谨的天体运行规律,其发表的《实用天体表》也不会在经历1500年后对太阳运动的累积误差多出10天。但是,如果仅仅是体量大,比如仅记录全世界70亿人的出生日期这个数据其体量就已经不小。但仅仅只有这一项数据,也只能反映出全世界的人口分布而已,对解决如今复杂的社会问题,似乎提供不了太多有用的帮助。这就涉及到大数据的另外一个特征--多维度。

二、大数据的多维度够多,能穷尽所有相关可能性。

搜索引擎出身的Google公司实际上是全球最大的大数据公司,扎克伯格只不过想了个更好的办法,也可以说是高明地绕了个大圈子,利用搜索功能来更高效的收集数据。众所周知,Google的人工智能已经走在了前沿,也是目前全球估值最高的公司。但是,无论是AlpahaGo、无人驾驶还是IT医疗公司Calico,都是建立在多维度的大数据基础之上的。例如关于“食物”这个问题,Google会利用用户输入的信息,收集所有相关的信息。不仅涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等维度,而且还藏着很多外人不注意的隐含信息,比如提问者或者回答者使用的计算机(或手机)以及浏览器。这些“相当杂乱”的多维度信息(时间、地域、食品、做法和成分)联系了起来。经过对这些数据的挖掘、加工和整理,就得到了有意义的统计规律,比如得出的关于不同地域的饮食习惯。如果再加入提问者和回答者的收入情况,便可以得知各个收入阶层的饮食习惯。京东也是利用多维度的大数据,来建立高效的物流系统。例如通过记录某种型号的冰箱的网上浏览、订购、退货、售后等信息,来决定其在这个区域的仓储策略。现在有了多维护的大数据,在过去看来很复杂很难处理的问题似乎可以迎刃而解了,显然这些都是机械思维所不能高效解决的。

三、大数据的完备性

机械思维时代的抽样调查方式都是采用抽取有限的样本进行统计,从而得出整体的趋势。抽样的核心原则是随机性,不随机就不能真实地反应整体的趋势。但是要做到随机性是很难的。例如电视收视率调查,要从不同阶层随机找被调查的人,但高学历高收入的大忙人们普遍拒绝被调查,他们根本就不会因为几个蝇头小利而浪费时间,电视调查的结果就可想而知。然而,Google的机器翻译系统就能很好的要利用大数据的完备性。通过数据学到了不同语言之间很长句子成分的对应,让后直接把一种语言翻译成另一类,前提条件就是使用的数据必须是比较全面地覆盖中文、英文,以及其他各种语言的所有句子,也就是说具备两种语言之间翻译的完备性。

上述是关于大数据趋势和特点的理解,也是关于吴军老师《智能时代》的部分读书笔记,下周继续分享:大数据--面临的技术挑战。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,200评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,526评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,321评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,601评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,446评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,345评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,753评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,405评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,712评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,743评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,529评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,369评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,770评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,026评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,301评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,732评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,927评论 2 336

推荐阅读更多精彩内容