数据科学和数据科学家成为了流行词汇。当有人问你干什么,你回答说数据科学家。对方会恍然大悟,觉得特别高大上,奥,数据科学家啊,听说过。是啊,没听说过数据科学家那就out了。如果接着问,数据科学家具体干什么的?然后就没有然后了。不知道你们有没有听过这样一则轶事,美国最高法院法官Potter Stewart被问到什么是淫秽时,他回答:“看下才知道。”这和数据科学很类似,很多概念,在大而化之的时候都可以存在,大家口耳相传,聊的不亦乐乎,但一追究细节,立即土崩瓦解。那么什么是数据科学家呢?我谷歌了一下数据科学家的定义,下面是其中的一些:
- 住在加州的数据分析师
- 数据科学家是商业(数据)分析师的进化版
- 比软件学家更懂统计,比统计学家更懂软件科学的人
- 拥有出众数据分析能力的BI咨询师,尤其是能用大量数据增加商业竞争力的人
- 会编程,懂统计,能通过多种方式从数据中掘金的人
此外,很多其它职位其职责都和“从数据中获取信息”有关,比如:数据分析师,BI咨询师,统计学家,金融分析师、商业分析师,预测分析师……这些不同职业有什么区别?即便都是数据科学家,教育背景等等也是千差万别。由于媒体的炒作以及对“数据科学家”这个名称的滥用,尽管总的分析行业正在飞速发展,但大家对这个行业从业人员的认识却越来越混乱。现在大部分商业领域所谓的分析都达不到“科学”的程度,而仅仅是加减乘除的游戏。这些不同的职位要求有何不同?在北美总体说来:
金融分析师一般有金融方向的MBA学位。他/她会用电子表格,知道会计软件,分析各部门的预算数据,分析实际经营结果和预测之间的差别,做一些预测,但这里的预测不会涉及复杂的机器学习,统计模型。
数据分析师一般有MBA学位,有一些计算机背景,很擅长使用电子表格,会用高阶的电子表格编程功能如VBA,自定义函数,宏。根据情况,会使用一些BI的软件,如Tableau,主要都是用鼠标点拖的方式。会用SQL从数据库中读取数据。我所见的商业分析师拥有很少(或没有)统计知识。所以这部分人有处理数据的知识,但是没有统计学的知识,能做的分析非常有限。
统计学家一般多在药厂,生物技术公司,做一些非常传统的混合效应模型,方差分析等生物统计分析。由于行业要求,多用SAS而非开源软件R。
BI咨询师,一般也是工商管理专业,有MBA学位,受传统的商学院教育(熟悉4Ps或6Ps,4Cs,使用SWOT法分析市场),熟练使用电子表格,很少或没有其它技术背景。
数据科学家,多是数学/统计,计算机,工程学专业出身,会使用R,Python等多种编程语言,熟悉数据可视化。大多数在入职前没有太多市场营销知识。掌握高等概率统计,熟悉如下概念:抽样,概率分布,假设检验,方差分析,拟合优度检验,回归,时间序列预测模型,非参数估计,实验设计,决策树,马尔可夫链,贝叶斯统计(很快就能在白板上写下贝叶斯定理)
数据科学家都分布在哪些行业呢?根据Burtch Works Executive Recruiting在2015年4月发布的“数据科学家薪资调查报告”,科技公司(包括互联网)是数据科学家最大的雇主。其次是一些为其它公司提供如广告,市场调查,市场分析等商业服务的公司。这两者之和超过了50%。2014年创业公司雇佣了29.4%的数据科学家,2015年这个比例降至14.3%,原因不是创业公司招的数据科学家职位少了,而是大公司招入的数据科学家增长迅速,整体基数变大。总体来说数据科学家就业前景在北美是非常好的。调查还显示,在北美,大部分数据科学家(70%)工作经验小于10年。因此数据科学还是个很年轻的行业。