数据分析过程:
1、以事实为基础提出假设,界定问题
2、将问题细分,形成互不重叠的子问题
3、进行数据收集与分析,证实或者证伪假设的问题
4、提出方案,推进问题的解决
5、执行方案,验证数据分析。
数据的分类:
统计学上把数据分为三类,分类数据,顺序数据,数值数据
分类型数据:主要是对事物的类别进行描述,比如电商网站中的品类,社交系统中用户的等级
顺序型数据:顾名思义,就是按照顺序排列的数据,这种数据也是文字的,如时间顺序,空间顺序,优先等级
数值型数据:最常见的数据类型,用数字或文字描述事物,是 数据分析的主要来源
数据分析的目的:
数据分析的目的就是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。
数据分析的种类有三种:
1,描述性数据分析:常用对比分析法,平均分析法,交叉分析法。
平均分析法大致有三种类型:
算数平均数:算数平均法和加权算术平均法简单方便,容易受异常值影响。
几何平均数:主要用于 对比率,指数进行平均,用来计算平均发展速度,用来计算复利下的平均年利率,在变量可能为负数和零的时候,不能使用,当数据呈倍数关系或者不对称分布时适用性强。
调和平均数:也叫倒数平均数,主要是用来解决无法掌握总体单位数的情况下,只有每组的变量值和相应的标志总量,而需要得到平均数的问题,通常在遇到需要计算平均速度,平均利润,平均成本指标时使用,尤其是观测值是阶段性变异的资料。
2,探索性数据分析:相关分析法,因子分析法,回归分析法
3,验证性数据分析:同上
数据分析的作用:
主要三作用:现状分析,原因分析,预测分析
数据分析操作过程:
1.明确目标:搜集和明确数据分析上下游需求,资源,能力和表达形式,时间节点等。
2.数据获取:从数据库,公开出版物,互联网,市场调查等方面搜集数据。
3.数据清洗:数据清洗,数据转化,数据提取,数据计算,具体包括数据整理入库,去除无效 数据,填充缺失信息,选择变量
第一阶段:预处理,数据导入,元数据分析,观察数据,一般来说100万条以下用excel,单机大量 100万条以上MYSQL+Navicat,单机海量1000万条以上,文本文件+python
第二阶段:去除补齐有缺失的数据
第三阶段:去除修改格式和内容错误的数据
第四阶段:去除不需要的数据
第五阶段:去除不需要的数据
第六阶段:关联性验证
4.数据整理:数据离散化,数据标准化,对数据进行重新编码,对数据表进行统计计算,生成各级指标,主要的目的是将清洗后的数据进行统一格式,集中存储。
5.数据分析:数据分析是将处理后的数据进行建模分析,描述分析,模型测试,价值提取,高层次的分析方法也叫数据挖掘,数据挖掘侧重解决四类问题,分类,聚类,关联,预测
6.数据展现:饼图,柱状图,条形图,折线图,雷达图等等
7.报告撰写:将模型加载,对数据分析过程总结和呈现
数据分析报告逻辑
核心三要素是:逻辑框架、数据证明、洞察结论;
逻辑框架:结论先行,数据跟上,逻辑完善,备注其他;一般以总分总模式为主;
数据分析方法论:
事实上是使用常见的企业分析方法论,设计数据分析的维度和范围,常用的方法包括
1、思考模型
5W+2H:为什么,什么目的,谁,那个领域,什么时候,怎么做
金字塔模型
鱼骨图模型
事实--解释--行为
水平思考,事实,感情,批判,乐观,创造,宏观
2、战略分析工具
战略-3C 公司,对手,顾客
战略规划,横轴表示竞争要素,纵轴表示竞争水平
对业务进行优先排序,纵轴表示公司优势,横轴表示市场价值
SWOT矩阵,优势,弱点,机会,危机
影响要素,五个力分析,供应链的变化,需求链变化,技术冲击,新进入者,有无替代者
组织7S,保持战略,共同价值,结构,体制,员工,技能,组织文化
3.市场营销分析模型
市场4P,产品,价格,渠道,广告
销售漏斗模型
根据收入分类的家庭数量的相对度分布,
人口分布曲线,
意愿能力矩阵
用户发布,技术革新者,有号召力的人,早期用户,后期跟风,滞后采用的
服务营销三角形,服务营销的渗透的过程中,最初关注功能,然后转移到渠道,最后由品牌影响力
PPM分析,纵轴表示成长率,市场占有率,分为,儿童业务,明星业务,瘦狗业务,现金牛
VRIO分析,价值,稀缺性,跟进难度,组织能力
4.常见管理模型
六西格玛
PDCA循环,计划,实施,改善,验证,
价值链,横轴表示研究,开发,采购,生产,流通,销售,售后,纵轴表示竞争对手
紧迫性和重要性的矩阵,重要性和紧迫性
5.数据挖掘模型
聚类:kmeans、系统层次聚类
分类:相似度计算、决策树
回归:逻辑回归,线性回归
降维:主成分分析、因子分析,对应分析/mds
文本挖掘:Word2vec、DOC2ver/LDA、文本相似度计算
时间序列等等