1. 数据分析的四个层级
1.1 描述性分析,描述现实,发现问题
到底发生了什么
找出关键环节,设置指标进行量化。达到还原事件的目的。
根据科学的评价标准,发现事件发生过程中的异常。
1.2 诊断性分析,解决问题,发现机会
问题出在哪
根据业务逻辑,通过数据,找出引起最终结果的原因和可以改变未来结果的方法
1.3 预测性分析,挖掘机会,预测未来
未来会发生什么
通常统计学、数据挖掘模型对数据进行处理,发现隐藏的信息或预测分析对象未知的属性
分类、聚类、关联分析、异常检测
1.4 决策性分析,制定决策,实现目标
最佳目标是什么
2. 认识数据
2.1 什么是数据和数据集
数据分类及处理方式
- 定性数据:众数、分布分析
- 定量数据: 均值、方差、标准差等
- 定时数据: 时间序列
数据对象的集合是数据集
分类:
- 原始数据集:要备份
- 统计 数据集
2.2 什么是指标如何评估数据质量
2.2.1 指标
指标:根据数据分析或数据统计得到的反映或评价某一事件的数据
指标的属性:
- 业务属性:名称、计算逻辑、描述对象、时效、查询权限等
- 技术属性:系统来源、取数字段、取数频率、加工规则
指标的分类:按统计方式区分 - 基础指标
- 复合指标
指标的分类:按描述内容区分 - 数量指标
- 质量指标
2.2.2数据的质量
数据质量代表数据对事实的还原程度。
评价:缺失值、重复值、异常值、准确率
3.数据质量分析
3.1 数据的准确率及重复值的识别和处理
3.1.1 准确率
原因:
- 对数据的理解有误,字段含义与理解含义有差异
- 指标的统计逻辑有差异
- 数据不完整,有缺失或遗漏
处理方法:
- 数据分析结果与已知准确数据对比
- 相关人员核实
影响
失真的数据,在分析、建模的过程会让模型出现错误的结果,导致输出结果不可靠。
解决方案
不断修正逻辑直到获取准确的数据
3.1.2 重复值
原因:
- 数据录入时重复录入
- 数据处理时产生了多条数据
识别方法:
- 确定数据的主键,统计主键出现的次数
影响
数据失真,在分析、建模的过程会让模型出现错误的结果,导致输出结果不可靠。
解决方案
- 如两条记录仅有几个字段相同,需要判断哪一条是准确数据,删除无效数据保留准确数据。
** 如两条记录完全相同,删除一条数据。
3.2 数据的缺失值的识别和处理
平均值填充法
K最近距离法
拉格朗日插值法
3.3 数据的异常值的识别和处理
原因:采集错误、真实产生
识别:根据业务逻辑判别、统计判别
处理方法:
删除,要慎重,删除一个后,重新评估,确定是否删除下一个
视为缺失值,
保留异常
4. 数据的分布分析方法
对数据分布情况进行描述,从而对数据发生的规律有准确的认识。
4.1定量数据分布分析方法
事件发生的一般结果是什么-》中心位置 集中趋势
事件结果的变化情况 -》分散程度 离中趋势
事件各个结果的发生概率是什么-》图型特征 概率分布
4.2 定性数据分布分析方法
目的:寻找不同类别对象的区别,或者对不同类别对象做不同处理,确定需要重点关注的对象。
数据质量、分布分析
4.2.1占比分析:
4.2.2 贡献度分析:
4.3 定时数据分布分析方法
寻找事件发生结果随时间变化的规律
4.3.1 周期性分析
傅利叶, 画图分析法
4.3.2 时间序列分析
5. 描述性分析-四层次之一
漏斗分析法
用户留存分析
用户画像分析
-- 标签属性分类
-- 热点图
6. 诊断性分析-四层次之二
分析步骤6步,见上面。
7. 预测性分析-四层次之三
7.1 分类分析的方法、步骤及应用案例
分类是简化认识、降低管理成本、提升管理效率的重要手段。
常见的分类方法:决策树算法、随机森林算法、KNN-最近邻分类算法、神经网络算法
决策树算法:
7.2 聚类分析的方法、步骤及应用案例
聚类分析:仅依据数据中发现的描述对象的特征,将数据进行分组,其目标是,组内的对象相互间是相似的,而不同组之间的对象是不同的。
K-means算法
计算距离方法:欧氏距离、曼哈顿距离
聚类质量评估方法
聚类结果的处理方法
各分群的特点是什么
对不同群体采用不同处理方式
RF模型
分类与聚类的区别
分类是知道分类结果,监督学习
聚类 无监督学习
7.3 关联分析的方法、步骤及应用案例
挖掘性分析方法:关联分析
发现隐藏在大型数据集下的有意义的联系。
7.3.1 关联分析的步骤
7.3.2 常用算法
APriori算法
核心目标:降低产生频率项集的复杂度
如是要一个项集是频繁的,其子集也是非频繁的。
如是要一个项集是非频繁的,其超集也是非频繁的。
步骤一、寻找频率项集
步骤二、计算置信度
7.4 离群点检测的方法、步骤及应用案例
羊毛党识别、故障设备识别、欺诈检测