1理解需求
知道要什么,才能考虑怎么做
2获取数据
数据库SQL技能
网络爬虫(简单的分析师做,复杂的技术部门)
3数据预处理:缺失、异常、异构
Excel:处理数据量不大,不能处理太多复杂字符结构
SQL:数据量大结构简单
Python:结构复杂数据
大数据平台hadoop、spark:数据量特别大
4统计分析:根据分组变量数据聚合计算、求均值、求和、求方差标准差;特征相关性分析、列连分析、假设检验
数理统计知识
统计工具SPSS、SAS或编程语言如Python、R等
5数据建模:量化数据关系,方便预测分类,常用模型有线性回归、逻辑回归、决策树、随机森林、支持向量机、神经网络, 这些模型大部分都可以在Python的第三方库Scikit learn中发现
统计知识
熟悉机器学习算法
有一定的编程能力
6数据可视化及数据报告的撰写
Excel、Tableau、R、Python
统计知识和业务知识