什么是大数据
我经常在生活中听到各种人宣称我们要如何如何利用大数据,利用大数据思维来做"精准营销"等类似这样的话。但据我所知,很多人无非就是觉得"大数据"这个词比较时髦,至于什么是大数据其实也是一知半解。有人说大数据就是体量非常大,是在上百GB到TB这个数量级。但是仅仅有大量的数据并不一定是大数据,比如一个人的基因全图谱的数据,这个数据量不可谓不大,但是它没有太大的统计意义。大数据之所以有用,是因为它除了数据量大,还应该具有多样性。这里的多样性可以指代两层意思,一个是数据样本的丰富度,比如说全国各地、各社会阶层的出生日期。但是仅仅具有出生日期这一项数据,除了可以了解全国人口的年龄分布,也得不到太多其他统计信息。因此,这里的多样性引申出另外一层意思,即多维度,除了包含出生日期外,还可以包含一个人的收入、年龄、职业等相关信息。可以用一句通俗的话来概括,大数据中就是包含了大量信息的数据。那什么样的数据信息量大,什么样的数据量小,或者说信息量是否可以被度量?香农在信息论中借用了热力学熵的概念,熵的物理意义表示一样东西的混乱程度,而他用熵来表示一个信息系统的不确定性。接下来香农指出,信息量与不确定性有关:假如我们要搞清楚一件非常不确定的事,就需要了解大量的信息。相反,如果我们对事情已经有较多的了解,那么不需要太多的信息就能把它搞清楚。所以,可以认为,信息量的度量就是等于不确定性的多少,他还指出要消除系统内的不确定性,就要引入信息。
大数据思维
要弄清楚什么是大数据思维,我们先来谈一下传统的机械思维。看到"机械"这个词,很多人马上想到的是死板、僵化,但是在过去的三个多世纪里,机械思维可以算得上是人类总结出的最重要的思维方式。通俗的讲,机械思维就是对于一件未知的事情,去想办法弄清楚它背后的因果关系。比如牛顿通过自己伟大的成就宣告了科学时代的来临,他告诉人们:世界万物是运动的,而且这些运动遵循着确定性的规律,这些规律又是可以被认识的。后来人们将牛顿的方法论概括为机械思维,其核心思想可以概括为这样几句话:
第一:世界变化的规律是确定的。
第二:因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。
第三:这些规律应该是放之四海皆准的,可以应用到各种未知领域指导实践。
但是机械思维的局限性更多来源于他否认不确定性和不可知性。不确定性在我们的世界中无处不在,比如今年的美国总统大选,各路专家一致看好希拉里,但是最终的结果出乎意料。 这并不是因为他们缺乏专业知识,而是由于不确定性是这个世界的重要特征。世界的不确定性主要来自于影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,以至于我们按照传统的方法,机械论的方法难以做出准确的预测。上一节我有提到,为了消除不确定性,就需要引入信息,而大数据中包含的信息恰恰可以帮助我们消除不确定性,而数据之间的相关性可以取代原来机械思维中的因果关系,帮助我们得到想知道的答案。因此,可以将一个不确定性问题转化为大数据问题。这便引入了一种新的方法论——大数据思维。大数据思维和机械思维并非完全对立,他更多的是对后者的补充。事实上,机械思维仍然是最优先考虑的方法论,只有在机械思维无法解决问题的情况下,才会考虑大数据思维。
大数据带来的挑战
机器智能的概念已经被提出来60多年,但是真正的突破是在具有了大数据的今天。为什么大数据的拐点会发生在今天?我们可以用数据的产生、存储、传输和处理四个角度来分析一下大数据形成的技术条件。
数据的第一个来源是电脑本身。全球数字化让几乎每一个用电的设备都有了一个"电脑"。这些电脑或者设备中内置的处理器、传感器和控制器一直在产生数据,比如设备状态的日志。大数据的第二个来源是传感器。传感器技术的进步使得收集数据变得非常容易。今天无所不在的摄像头,其作用与收集数据的传感器有着相似之处。数据的第三个来源是将那些过去已经存在的、以非数字化形式存储的信息数字化。这样一来,我们存储的数据总量陡然增长了,从这里也可以看出,大数据兴起的第二个必要条件是存储技术的发展。由于摩尔定律导致各种存储器的容量成倍增加,同时价格迅速下降,使得原本不得不丢弃的一些数据现在有条件存起来以供使用。
另外,由于数据的来源和采集点分布在不同的地点,在互联网发展的早期阶段,即便产生了大量的数据,在那样的通信环境里,也收集不到一起,因此人们也不会考虑大数据的问题。到了移动互联网时代,这个情况发生了根本性的改变,今天的第四代LTE的有效数据传输率达到2MB/s ~ 10MB/s,这使得数据在产生后可以迅速传到服务器。当海量的数据被传到服务器上之后,能否用得好就用看是否有足够强大的数据处理能力了,因此信息处理的速度也是大数据的一个先决技术条件。
此外,保护好用户的隐私,同样是靠大数据长期挣钱的必要条件。由于大数据具有多维度和全面的特点,它可以从很多看似支离破碎的信息中完全复原一个人或者一个组织的全貌,并且了解到这个人生活的细节或者组织内部的各种信息。大数据带来的便利与隐私之间往往是一对矛盾体。根据调查,大家通常会夸大大数据带来的便利之处而忽视对个人隐私带来的危害。大众在大数据时代对自己的隐私如此不在意,可能有三个原因。首先是不清楚大数据按照目前的这个方式发展,最终会严重侵犯个人隐私。其次是抱着侥幸心理,认为那么多用户数据,怎么可能数据的拥有者和操作者正好能挖掘到我的隐私。最后,很多人觉得,我既不做什么坏事,也不担心行踪被暴露,那么拥有我的数据的公司即便知道我的隐私,也损害不了我的利益。这种想法其实大错特错,我们不妨看下面这个例子:
人们在中国某大型电子商务网站上发现,某些人总是买到假货,而另外一些人以同样的价格却买到真货。这并不是因为前者比后者运气差,而是商家掌握了太多的个人数据,或者说我们的隐私。当商家知道前者是买了假货也不会吭声的软柿子,后者是睚眦必报的刺头的时候,欺软怕硬的行为一定能够给他们带来最多的利益。
我们必须清楚,保护好隐私对大数据长远的发展非常重要。一类保护隐私的技术是从技术信息的一开始就对数据进行预处理,预处理后的数据保留了原来的特性,使得数据科学家能处理数据,而"读不懂"数据的内容。我去年在参加天池移动推荐算法大赛时,所有的数据都是经过脱敏的,比如说可以用一串随机的数字来替换用户的ID,只要保证唯一性即可。另一类保护隐私的技术是所谓的双向监视。简单地讲就是当使用者看计算机时,计算机也在盯着使用者看。大部分人喜欢偷窥别人隐私的一个原因是,这种行为是没有成本的。但是有人在刺探别人隐私时,他的行为本身也暴露了,那么他多少约束自己的行为。
未来智能化产业
在过去的300多年里,人类所经历的历次重大技术革命都沿袭这样的规律:
现有产业 + 新技术 = 新产业
比如在互联网出现后,广告业从过去的印刷广告和电视广告逐渐转变为互联网广告。另外,书中提到了智能革命对未来的农业、体育、制造业、医疗等各个领域带来的升级和变迁。其中有一个例子印象比较深刻,大概就是讲NBA的金州勇士队,曾经是一只鱼腩球队。但因为身处硅谷,风险投资人和工程师决定将这支不值钱的球队买下来好好经营。他们通过数据分析的结果,管理层认为现在的NBA以及很多联赛所追求的打法是错误的。大多数球队一直在寻找身体条件比较出众的,比如乔丹、奥尼尔这样的球员。他们的打法虽然好看,但是效率很低,因为只能得两分,勇士队的管理层设计的新打法是尽可能投3分。
看到这里,虽然我承认数据分析对于当今NBA职业联赛的重要性,但是这个例子着实有点牵强,感觉是特意为了夸大"大数据"的重要性。勇士的崛起,大数据应该不是主要原因。
智能革命和未来社会
机器智能给我们社会的产业带来了升级和变迁,但也给人类带来了一个终极问题:既然什么事情都可以让机器做,而且还比人类做的好,那么人类怎么办?
可以毫不夸张的说,历史上影响力可以和正在进行的智能革命相比的,只有18世纪的工业革命、19世纪的第二次工业革命、二战后以摩尔定律为标准的信息革命。这三次技术革命都有一个共同点,那就是它们对当时的社会产生了巨大的冲击,都需要经过大约半个世纪甚至更长的时间才能消化掉。因为技术革命会使得很多产业消失,或者从业人口大量减少,释放出来的劳动力需要寻找出路,这个时间需要至少一代人以上。
首先让我们来看看18世纪末的工业革命。工业革命初期,受益者只有博尔顿那样的工厂、瓦特那样的发明家。其他人在短期内是很难收益的,甚至可能因为新技术的出现变得更加贫穷,因为机器抢了他们的生计。那么工业革命的副作用是怎样被解决的呢?简单讲就是资本输出,开拓全球殖民地,推行自由贸易。
今天的世界和200年前已经不同了,消化掉技术革命的影响要比工业革命难得多。由于全球化,全世界已经没有空白的市场可以开拓了。而智能革命所要替代的是人类最自豪的部分——大脑。在智能时代,一定会有一小部分人参与智能机器的研发和制造,这是所谓的新行业,但是这只会占到劳动力的很小一部分,也许不到2%。虽然我们不知道如何在短期内创造出可以消化几十亿劳动力的产业,但是我们很清楚如何让自己在智能革命中收益,而不是抛弃。这个答案很简单,就是争当2%的人,而不是自豪地宣称自己是98%的人。