原文:Data Scientist versus Data Engineer
https://www.datasciencecentral.com/profiles/blogs/data-scientist-versus-data-engineer
数据科学家和数据工程师之间的主要差异之一与ETL与DAD有关:
ETL(提取/加载/转换)适用于数据工程师,或者有时是数据架构师或数据库管理员(DBA)。
DAD(Discover / Access / Distill)适用于数据科学家。
数据工程师往往集中在软件工程,数据的基础上设计,生产代码,并确保数据源之间平滑地流动(在那里被收集)和目的地(在那里提取和处理,与由数据科学产生统计汇总和输出算法,最终移回源或其他地方)。数据科学家虽然需要了解数据流(以及它如何优化,特别是使用Hadoop时),但实际上并未优化数据流本身,而是数据处理步骤:从数据中提取值。他们与企业数据系统(存储,数据流)高效协作。这就是为什么使用计算机编写可供工程师重复使用的代码(越来越多,Python)的好主意。
有时候数据工程师会做DOD,有时候他们不会ETL,但他们并不常见,他们通常在内部做。例如,数据工程师可能会进行一些统计分析来优化某些数据库过程,或者数据科学家可能会管理一个小型的本地私有数据库,其中包含汇总信息。
DAD是以下内容的一部分:
发现:查找,识别良好数据的来源和指标。有时要求创建数据(与数据工程师和业务分析师一起工作)。
访问:访问数据。有时通过API,网络爬虫,互联网下载,数据库访问或有时通过数据库内存。
提炼:从数据中提取精华,增加投资回报率和操作(例如确定自动出价系统中的最优出价)。它涉及
探索数据(创建数据字典和探索性分析)
清洁(去除杂质)
精炼(数据汇总,有时是多层汇总或分层汇总)
分析:统计分析(有时包括可以在访问阶段之前发生的实验设计等内容),包括自动和手动。可能或可能不需要统计建模
在一些自动化过程中呈现结果或整合结果
数据科学处于计算机科学,商业工程,统计学,数据挖掘,机器学习,运营研究,六西格玛,自动化和领域专业知识的交叉点。它汇集了来自不同领域的许多技术,流程和方法,以及商业愿景和行动。数据科学即将彻底打破业务流程,并消除影响业务效率的孤岛。它也有其独特的核心,包括(例如)我的书中讨论的以下主题(列在“相关文章”一节中):
为大型数据集创建聚类和分类(第2章和第4章)
互联网拓扑结构(第4章)
无模型置信区间(第5章)
分析即服务API(第5章)
Hadoop / Map Reduce(第5章)
快速功能选择(第6章)
功能的预测能力(第6章)
高级可视化(第4章)
大数据的诅咒(第2章)
Reduce无法做什么(第2章)
大数据中的关键字关联(第4章)
Eleven具有任何数据库,SQL或NoSQL应具备的功能(第4章)
大数据的相关性和R平方(第4章)
没有模型的统计建模(第4章)
在通常的域,超平面,球体或单纯形上进行线性回归(第1章)
警告:
有些人正在寻找具有强大统计知识的Java或数据库开发人员。这些专业人员非常少见,因此雇主有时会尝试雇用一名数据科学家,希望他/她在开发生产代码方面很有实力。如果您没有Java或数据库专业知识水平,参加这些访谈可能会浪费时间。您应该事先询问您是否拥有拥有统计数据或Java技能的Java开发人员,在您的电话采访中,有时招聘经理不确定他想要什么,并且您可能会说服他雇用像你这样的人。与其他方式相比,让Java软件工程师学习统计数据(尤其是将本书用作培训材料)更容易。