统计学是一门很古老的科学,也是很重要的学科。
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
统计学的中心问题就是如何根据样本去探求有关总体的真实情况。在过去,我们数据有限,算力有限,统计学的作用就很重要。
伴随着信息化,我们获得的数据量越来越大,我们的计算能力越来越强,统计学的历史使命似乎要达到终结。
大数据时代,我们可以获得全样本,大数据时代,我们可以有不同的方法去处理数据,去了解样本的方方面面。相比较统计学,样本规范,总量数据有限,观测目标单一,这种情况下,统计学是适用的。然而,数据过大的情况,比如是网络海量数据,你如何取样,你如何观测呢?
大数据的特征之一是多样性,不同来源、不同维度的数据之间存在一定的关联度,可以交叉验证,运用大数据做决策,决就能够从粗放型转向集约型。
这么说来,统计学似乎就没有价值了?
大数据是全样本,然而一些数据并不是有很大价值,甚至会出现错误导向。
谷歌的创始人拉里.佩奇和谢尔盖.布林,在面试的时候,会要应聘者大学的SAT成绩及大学毕业时的平均成绩。
然而,每次那些40多岁,成就斐然的职业经理人被问到成绩,就很懵逼。
他们的依据是:SAT能彰显天赋,大学平均成绩则能体现成就。
工作表现和这些成绩有关系吗?没关系。
这个数据虽然是全数据,但仍然具有不确定性。
大数据告知信息但不解释信息,这是大数据相关关系的特性。
就像股票市场,即使把所有的数据都公布出来,不懂的人依然不知道数据代表的信息。大数据时代,统计学依然是数据分析的灵魂。正如加州大学伯克利分校迈克尔·乔丹教授指出的,“没有系统的数据科学作为指导的大数据研究,就如同不利用工程科学的知识来建造桥梁,很多桥梁可能会坍塌,并带来严重的后果。”
在大数据时代,我们不能忽视一些新的方法和思想,但是,数据分析的很多根本性问题和小数据时代并没有本质区别。