“我要做大数据!”
随着大数据领域的火爆,数据科学领域的招聘信息越来越多,范围也越来越广,然而面对参差不齐的招聘信息,你真的知道大数据到底做什么的么?“你希望具体从事的大数据工作或方向是什么?”
对于,大数据领域生态,包涵很多不同打的岗位,也赋予不同岗位不同的技能、要求和发展方向。为了和大家介绍的清楚,通过一个数据课题case流程来解释不同岗位的职责。
大数据课题流程有4个基本环节,分别是业务理解、数据准备、数据挖掘、分析应用。在这个流程里有四个层次:需求层、数据层、模型分析层与输出层,同时对应四个职能领域:
业务理解(业务数据分析师,业务战略规划师):业务侧之眼,负责业务规划与战略规划,帮助企业在业务层突破、创新,实现价值
DBA:承担整个公司数据仓储、数据库的搭建与服务,保证数据安全、稳定
大数据挖掘:负责关键模型应用与研究工作
大数据分析应用:既是外部需求的接入者,也是解决方案的输出者,很多时候也会承担全盘统筹的角色
研发层:完整的流程还需增加职能,承担整个运营系统的构建与维护、数据准备、平台与工具开发
这样一张完整的职能架构变出来了,下面通过信息图区分每个职位的角色介绍、必备技能。
1.业务数据分析师
角色/任务:改进业务流程的业务和IT之间的中介
必备语言:SQL
技能和特长:
基本工具(例如微软Office)
数据可视化工具(e.g.Tableau)
自觉听和讲故事
商业智能的理解
数据建模
2.数据库管理员
角色/任务:确保数据库是提供给所有相关用户,正在正确执行,并且安全运行
必备语言:SQL,Java,Ruby on Rails,XML,C#,Python
技能和特长:
备份恢复
数据建模和设计
分布式计算(Hadoop的)
数据库系统(SQL和基于NO SQL)
数据安全
ERP业务知识
3.数据科学家
角色/任务:清洗,管理和组织(大)数据,利用算法和模型提高数据处理效率、挖掘数据价值、实现从数据到知识的转换。
必备语言:R,SAS,Python,Matlab,SQL,HivePig,Spark
技能和特长:
分布式计算
预测模型
故事讲述和可视化
数学\统计,机器学习
4.数据架构师
角色/任务:创建数据管理系统进行整合,集中,保护和维护数据源
必备语言:SQL,XML,HIVE,PIG,SPARK
技能和特长:
数据仓库解决方案
深入了解数据库体系结构
提取thansformation和加载(ETL),电子表格和BI工具
数据建模
系统开发
5.数据工程师
角色/任务:开发,建设,测试和维护架构(如数据库,以及较大规模的处理系统)
必备语言:SQL,Hive,Pig,R,Mtlab,SAS,SPSS,Python,Java,Ruby,C++,Perl
技能和特长:
数据库系统(SQL和基于NO SQL)
数理统计功底,统计学
数据建模ETL工具
数据API
数据仓库解决方案
6.统计学家
角色/任务:收集,分析和解释,定性和定量的数据统计理论和方法
必备语言:R,SAS,SPSS,Mtlab,Stata,Python,Perl,Hive,Pig,Spark,SQL
技能和特长:
统计理论方法
数据挖掘机器学习
分布式计算(Hadoop的)
数据库系统(SQL和基于NO SQL)
云工具
7.数据产品经理
角色/任务:管理团队分析师和数据科学家,与团队解决课题。一个重视数据的大公司的数据产品基本会分为平台线和业务挖掘线。在这种组织结构下,平台线提供基础平台和通用的数据工具,包括数仓存储和计算平台,数据采集SDK,自定义报表工具,邮件发送管理工具,数据监控平台,平台通用数据字典等等。而在业务线上,则是提供更加贴近业务的分析框架和数据应用。一般会有以下流程:确定本部门的指标体系和分析思路,分析模型,建立数据仓库和可视化报表平台,依赖业务线工具做好数据监控,邮件发送,以及面向各子部门做专门的数据应用,如面向销售部门的城市仪表盘,面向用户产品的流量分析工具等等。
必备语言:SQL,R,SAS,Python,Matlab,Java
技能和特长:
数据库系统(SQL和基于NO SQL)
领导项目管理
人际沟通
数据挖掘预测建模数据建模
8.数据分析师
角色/任务:收集,处理和执行统计数据分析
必备语言:R, Python, HTML,Javscript,C/C++,SQL
技能和特长:
电子表格工具(例如Excel)中
数据库系统(SQL和基于NO SQL)
通信可视化
数学,统计,机器学习
入职大数据领域,弄清楚是做什么产品,做什么项目,将要用到什么技术,什么语言,然后才能有针对性的去进行相关学习和培训
对于大数据运营体系和系统底层架构,包含了采集层、存储层、计算层和应用层,对于每一层所需的编程语言和工具都有所侧重
理论上计算机专业、信息专业、数学专业、管理专业或者其他专业背景的都可以尝试这个领域。前期是做数据的基础监测和总结工作,如周期性的报告或特定专题报告;中期参与业务沟通、梳理需求,组织建模解决问题;后期为企业内部提供战略意见,带领团队提供可落地的解决方案,解决大数据课题,落地数据方案。
最后,会Python无论数据采集(爬虫)、数据建模挖掘、数据分析应用(展示)均能攻克。