在美国做猎头和职业培训两年多了,专攻数据科学家(Data Scientist),审了一千多份简历,面了几百人,简单说说一些个人的经验和感受。数据科学是一门新兴行业,对专业的要求比较高,我经手的candidate基本都是个各个领域的PhD,最后加入的团队也都是在数据行业肯投资,发展快的一线技术公司。有些经验可能不适合其他行业,请自行斟酌。
1. 招人难,招数据科学家更难
先说说什么是数据科学吧。2010年左右,硅谷几大发展势头迅猛的公司(我不说你们也知道,不外乎Facebook, LinkedIn, Twitter,Apple, Amazon几家,这里不提Google因为G家早几年就自己闷头发展Google X了,数据科学对他们来说太小儿科了)意识到数据堆里有黄金,简单作几个模型预测就可以把用户粘度和广告收入提高,还可以精准的改进自己的产品,省下大量研发时间。可是谁来建这些模型呢?码农们写码还可以,也可以简单做做统计分析,但Facebook几秒的数据量就不是一个t-test可以处理的了。硅谷巨头们把目光看向了万年憋屈的PhD们,尽管大家的研究课题各异,有的甚至除了发发文章屁用没有,但是建模的能力还是有的,对着数据死磕简直就是家常便饭。早期的数据科学家们几乎都是从学术界转行,专业领域五花八门,以物理居多,数学,统计,经济,计量心理学,计算生物学,地理,环境科学,甚至一些社会科学如政治学也贡献了很多人才。
随着11,12年几家主流媒体如哈佛商业评论,华尔街日报,经济学人,甚至自然杂志的相继报道,大量二,三线公司意识到数据的重要性,对数据科学家的需求如雪崩式增长。麦肯锡的一篇年度报告更把数据科学家称为二十一世纪最性感的工作(你们知道的,这里把性感理解为火热,需求高),并预测未来十年对数据科学家以及数据经理和高管的需求达到七十万以上。业界掀起了一派求贤若渴的热潮。
然而很少有人知道到底如何,以及去哪招数据科学家。
这是我要谈的第一点,当你在美国找工作时,特别是新兴行业,公司以及招聘经理(hiring manager)不一定知道他想要招什么样的人。
举个简单的例子。我咨询过的一家公司,全美排名前三的医疗保险公司,掌握着几千万美国人的医疗和保险资料,他们的目标是建立一个几十到几百人的数据科学团队。两年过去了,所谓数据团队的头头儿换了三,四个,整体的招聘策略还是没有定下来,新上任的Director对应聘人的要求只有一条,有深度学习(deep-learning)经验。为什么呢?因为硅谷巨头们都在做深度学习模型,做为排名前三的医疗保险巨头,当然要紧跟技术潮流。而这个时候,这家公司甚至还没有解决最基础的数据存储,分享,交流的底层架构。这还是人力资源丰厚的成熟大公司,小公司,初创就更不用说了。当然做的好的也有,后面会慢慢讲。
有点反常识吧?为什么公司,甚至招聘经理自己都不知道想要招什么样的人呢?
如果把招聘(hiring)看成是一个供给-需求的关系,公司是需求方,而海量的求职人是供给方,招聘的过程其实就是一个优化匹配问题。你也可以简单理解成为在茫茫的自由恋爱市场找到你的soul mate的过程。很少有人第一次恋爱就知道自己想要什么样的人结婚,知道了也不一定找得到(所以相亲未必完全是浪费时间,你的父母家人其实已经帮你筛选过很多变量了)。
做为需求方的招聘经理,他对data scientist的需求往往基于对现有项目的了解。如果他是自己从数据工作做起,十分了解需要什么样的能力和背景,这是最好的情况,面试过程一般比较流畅。然而大部分的招聘经理都不是从data scientist成长起来的,他们只能参考行业热词(深度学习,机器学习,Spark)以及其他公司的招聘策略。Facebook需要极强的数据库能力,对编程要求一般,那是因为他们有几百上千的专业码农的后面顶着。如果没有强大的码农团队,依着Facebook的策略招人,建起的模型和分析要么不能productionize,要么无法scale,后面还要花费大量的engineering资源补上当初招聘时能力缺失的漏洞。
错误估计能力需求是小问题,大多数招聘经理犯的错误是,他们想要一个数据科学家样样精通。其实他们也意识到了这个问题,所以才会自谑招的是“独角兽”(unicorn),因为这样的人才太稀有。所谓样样精通,包括扎实的数学和统计基础,玩转各种回归,聚类,连续,离散,非正态分布,高维模型,懂得如何处理烂的屎一样的数据,代码写的好,会优化时间复杂度,能扩展,平行计算。而除了这些技术条件,他们还梦想这个data scientis沟通能力强,上可汇报CEO,下可和产品,市场,销售部门打成一片,了解公司业务,会根据业务需求调整模型,每个分析和模型都有极强的应用性和可操作性。。。(以下省略五百字,具体参考女汉子标准)
这简直是高能物理博士和MBA的结合体,而这两类人,你懂的,早在本科就分家在各自的领域越走越远了。
讲了这么多,有什么用呢?如果你在美国找工作,放正心态,你的面试官未必比你懂的多。不要盲目根据job posting的关键词放弃。 当你看到一份工作要求你有五年的数据分析经验时,两年足矣;要求会Hadoop和Spark而你只会Python,没关系,没有公司会拒绝一个好的Python programmer,两个月内你会玩转Spark 。
开篇先说这么多吧,后面会再讲讲如何写一份好简历,我面过的奇葩们,怎样和公司negotiate job offer,以及对data scientist的职业发展建议等等。最近刚刚做完今年的几个新项目,可以慢慢把这两年多的经验分享一下。时间原因可能进度没法太快,如果有感兴趣的话题或者和数据科学面试,转行的问题,欢迎留言。
PS:由于工作原因,无法推荐工作,无法帮你看简历,也不会谈及任何一家公司的面试真题,望见谅。