50年前,John Tukey他老人家就预言有个类似今天的数据科学的东西会出现。早在1962年,他在“数据分析的未来(The Future of Data Analysis)”中John Tukey [1] 就嚷着要对学术统计进行改革。这篇文章当时发表在“数理统计年鉴(The Annals of Mathematical Statistics)”上,他的观点震惊了许多统计界的同事,这都是一群根正苗红的数理统计出身的大神们,那会数理统计年鉴中的文章都是满满的数学公式推导,从定义,定理到证明,逻辑缜密,理论精确。
当然牛人最大的特点就是可以随时任性。John推了大半辈子公式突然有天发现统计不是这么玩的,于是他跳出来说:
"很长一段时间我觉得自己是统计学家,对统计推断情有独钟,将从小样本上研究得到的结论推广到更大的群体。但随着数理统计的发展,我越发觉得这个路数不大对...总的来说,我觉得自己感兴趣的是数据分析,它包括:分析数据的过程,解释该过程得到结果的技术,合理计划收集数据的方案使得之后的分析过程更方便准确,以及所有分析中需要用到的仪器和数学理论。”
用简短的一句话概括就是:仅仅研究数学理论不是数据科学,数据科学的内容涵盖更广。
美国密歇根大学在2015年9月宣布了一个1亿美金的“数据科学项目(Data Science Initiative)”,计划在未来4年聘请35名新教授,支持与数据相关的跨学科研究。大学媒体大胆的宣称:
"数据科学已经成为第4大科学发现手段,前三个为:实验,模型和计算。"
这里的数据科学指的是什么?该项目的网站上有如下对数据科学的描述:
"数据科学是科学发现和实践的结合,其包括对大量类型各异的数据进行收集,管理,清理,分析,可视化和结果解释。其应用遍及各种科学,平移和交叉领域。"
如前所述,数据科学是一个新兴领域。在美国,对数据分析类专业人才的需求不断上升。研究估计[2],从2015到2018年,美国预计有400-500万工作岗位要求数据分析技能,大部分这些岗位的人才需要经过特殊训练。前面已经介绍过各种和数据分析相关的行业,这些行业对专业训练的要求参差不齐。其中数据科学家的门槛是最高的。成为一个数据科学家不是容易的事。不可否认,即使是数据科学家这个职业名称,当前也被滥用了。这些工作的本质都是从数据中获取信息。但不是每个都能称为“科学”。什么样的东西能够称为科学?我们看看John Tukey在50年前是怎么说的[1]:
怎样才能称为科学呢?回答因人而异。但下面3点大多数人都同意:
1. 学术知识(intellectual content)
2. 用能让人理解的方式组织起来
3. 实践是检验其结果的最终标准
也就是说,数据分析要通过上面3条检验才能称为数据科学。我是这样定义数据科学的:
数据科学=数据+科学=从数据中获取信息的科学
这是一门新的科学,有各种因素推动了这门科学的产生。John提到了4个驱动因素:
- 正统统计学理论
- 计算机和电子显示设备的高速发展
- 很多领域内更多更大的数据提出的挑战
- 定量分析在更广的领域受到重视
很难想象这些观点是在1962年提出的,现在看来一点也不过时。7年之后,Tukey和Wilk在1969年又将这门科学和已经存在的科学进行对比,进一步限定了统计学在数据科学中所扮演的角色:
“...数据科学是一个困难的领域。它需要和人们能用数据做什么和想用数据做什么这样的外在条件相适应。从某种意义上说,生物比物理困难,行为科学比这两者都难,很可能总体数据科学的问题比这三者还要难。无论在现在还是短期的将来,要建立一个正式的能够给数据分析实践提供高效指导的数据科学的结构还有很长的路要走。数据科学可以从正规正统统计学那里获得很多,但它们之间也需要保持适当的距离。”
数据科学不仅是个科学领域,而且和其它已经存在很久的科学领域一样困难。统计理论只在数据科学中扮演了部分角色,因为数据科学还有艺术的一面,艺术部分的发挥就需要数据科学家啦!
什么是数据科学家?
数据科学家=数据+科学+艺术家=用数据和科学从事艺术创作的人
数据科学家立足于科学,但不止于科学。从数据中提取出信息无疑是重要且有意义的过程,但这还不够。因为分析的终极目标是能够解决问题,实现价值。而从信息到具体应用领域的知识,进而应用所得知识创造价值,这两步都是需要一些艺术的,需要一点想象力。在之后“数据分析一般流程”那章中我会进一步讨论这个职业中艺术的部分。科学家需要不断学习,数据科学家是一个需要终身学习职业,其实很多职业都要求这一点。当然,你进入这个领域之前有一个门槛得要跨过去,有些基本的技能需要掌握。上面关于数据科学以及数据科学家的定义听起来非常高大上,可能有些抽象,感觉自己是个文艺女青年。其实也可以用一种更接地气的方式表达:
数据科学=从数据中得到问题答案的科学
数据科学家=通过科学方法从数据中得到有实际意义 的问题答案的人
数据科学结合了一整套科学工具与技术(数学,计算,视觉,分析,统计,试验,问题界定,模型建立与检验等),用于从数据收集中获得新发现、洞察与价值。使用数据科学的根本目的是解决实际问题。David Donoho在他2015年的文章“数据科学50年(50 years of Data Science)”中[3]讨论了当今数据科学的全貌,其中他将数据科学这个大领域分成6块:
- 数据探索和准备
- 数据表示和变换
- 数据编程计算
- 数据建模
- 数据可视化和展示
- 数据科学的科学
而一个合格的数据科学家,应该掌握这6个子领域的相关技能。
[1] Tukey, John. 1962. “The Future of Data Analysis.” The Annals of Mathematical Statistics, 1–67.
[2] Berkeley. 2015. “What Is Data Science?” https://datascience.berkeley.edu/about/what-is-data-science/.
[3] Donoho, David. 2015. “50 Years of Data Science.”