写在年末。看了一本《数据科学家修炼之道》,想想自己还有许多不足,新的一年即将到来,为自己立下flag。全书大而杂,结合自身实际情况总结了一下。
【数据科学家】采用科学方法,运用数据挖掘工具寻找新的数据洞察力的工程师,他们往往集技术专家和数据分析师的角色于一身。
数据科学诞生了超过20年的历史,第一次是在1996年IFCS发表的《数据科学分类以及相关方法》,直到最近才起飞,源于相关技术的发展(并行计算、智能数据分析方法和低成本的强大计算能力)。
数据科学家的类型
1.数据开发者:编程专家,通常来自于IT行业。
2.数据研究者:拥有学术背景,硕士或博士学位,是数据分析专家,也能处理机器学习及其他领域的最新技术。
3.数据创意师:运用数据制作产品的人,互联网的数据产品经理。
4.数据商务人士:研究数据科学,同时担任管理角色,更多地接近于商务世界。
5.混合/普适类型数据科学家的特质
每个行业的从业者都会表现出不同的特质,就比如数学家思维缜密,小说家天马行空,企业家勇于冒险积极进取.
1.好奇心。数据科学家总是自然地被周围的数据现象所吸引,挖掘细节,并不断探索,想要触及它们的全部。能快速学习,用来解决实际问题。
2.沟通能力。数据科学是交叉学科,与各领域紧密相连,这种交叉性就会在工作中的组织的大量联系和合作中体现出来。数据科学家善于团队合作,不仅需要能传达他人的成果,同时也要清楚了解各种问题,并展开富有建设性的对话来解决他所承担的项目中的各种问题。
3.创造力和系统性工作。数据科学家在他所参与的设计及其他创造性的工作中扮演着类似艺术家的角色。不局限于方法论的框架中,而是与实际问题结合来建立模型,灵活地处理特定问题,甚至创造新的方法。
- 数据科学家的技术资质
扎实的技术资质是进入某个领域前必不可少的。
1.综合编程能力。至少要熟悉一种面向对象编程语言,JAVA、C++/C#、python。SQL(结构化查询语言)也是必须的。
2.科学背景。在技术领域至少有一个硕士学位(通常是计算机科学、统计、数学、管理科学与工程,或其他相关专业)。对各种高级分析技巧的扎实的理论理解和实际的专业知识同样是科学背景的组成部分。包括但不限于数据挖掘、机器学习以及预测分析。
3.专业化知识。足够了解一些数据分析工具R、Matlab、SPSS、SAS等。大数据存储架构的经验,像Hadoop、Spark、大规模分布式数据库等。可视化、大规模数据处理、用户建模也是需要去熟悉的。
4.经验。有企业经验和学术经验。有企业经验最好,毕竟在学术上的研究最终要用到企业的生产环境中。学术上一般是研究生,可以参加数据科学竞赛或者研究课题,找相关的实习也能增加企业经验。
- 数据科学家的工作
该书这部分讲的有点乱,但还是有道理可循。主要还是参考CRISP-DM的流程。
最后,数据科学家和数据分析师的区别。主要还是一个运用数据挖掘的方法,一个运用统计学的方法。具体数据挖掘和数据分析的区别考试的时候都背过了,不写了,手酸@-@明天继续技能篇。