数据分析

1. 数据分析的四个层级

1.1 描述性分析,描述现实,发现问题

到底发生了什么
找出关键环节,设置指标进行量化。达到还原事件的目的。
根据科学的评价标准,发现事件发生过程中的异常。


image.png

1.2 诊断性分析,解决问题,发现机会

问题出在哪
根据业务逻辑,通过数据,找出引起最终结果的原因和可以改变未来结果的方法


image.png

1.3 预测性分析,挖掘机会,预测未来

未来会发生什么
通常统计学、数据挖掘模型对数据进行处理,发现隐藏的信息或预测分析对象未知的属性
分类、聚类、关联分析、异常检测

1.4 决策性分析,制定决策,实现目标

最佳目标是什么


image.png

2. 认识数据

2.1 什么是数据和数据集

数据分类及处理方式

  • 定性数据:众数、分布分析
  • 定量数据: 均值、方差、标准差等
  • 定时数据: 时间序列

数据对象的集合是数据集
分类:

  • 原始数据集:要备份
  • 统计 数据集

2.2 什么是指标如何评估数据质量

2.2.1 指标

指标:根据数据分析或数据统计得到的反映或评价某一事件的数据
指标的属性:

  • 业务属性:名称、计算逻辑、描述对象、时效、查询权限等
  • 技术属性:系统来源、取数字段、取数频率、加工规则
    指标的分类:按统计方式区分
  • 基础指标
  • 复合指标
    指标的分类:按描述内容区分
  • 数量指标
  • 质量指标

2.2.2数据的质量

数据质量代表数据对事实的还原程度。
评价:缺失值、重复值、异常值、准确率

3.数据质量分析

3.1 数据的准确率及重复值的识别和处理

3.1.1 准确率

原因:
  • 对数据的理解有误,字段含义与理解含义有差异
  • 指标的统计逻辑有差异
  • 数据不完整,有缺失或遗漏
处理方法:
  • 数据分析结果与已知准确数据对比
  • 相关人员核实
影响

失真的数据,在分析、建模的过程会让模型出现错误的结果,导致输出结果不可靠。

解决方案

不断修正逻辑直到获取准确的数据

3.1.2 重复值

原因:
  • 数据录入时重复录入
  • 数据处理时产生了多条数据
识别方法:
  • 确定数据的主键,统计主键出现的次数
影响

数据失真,在分析、建模的过程会让模型出现错误的结果,导致输出结果不可靠。

解决方案
  • 如两条记录仅有几个字段相同,需要判断哪一条是准确数据,删除无效数据保留准确数据。
    ** 如两条记录完全相同,删除一条数据。

3.2 数据的缺失值的识别和处理

image.png

平均值填充法
K最近距离法
拉格朗日插值法

3.3 数据的异常值的识别和处理

原因:采集错误、真实产生
识别:根据业务逻辑判别、统计判别


image.png
image.png

image.png

处理方法:
删除,要慎重,删除一个后,重新评估,确定是否删除下一个
视为缺失值,
保留异常

4. 数据的分布分析方法

对数据分布情况进行描述,从而对数据发生的规律有准确的认识。


image.png

4.1定量数据分布分析方法

image.png

事件发生的一般结果是什么-》中心位置 集中趋势
事件结果的变化情况 -》分散程度 离中趋势
事件各个结果的发生概率是什么-》图型特征 概率分布


image.png

image.png

image.png

image.png

4.2 定性数据分布分析方法

目的:寻找不同类别对象的区别,或者对不同类别对象做不同处理,确定需要重点关注的对象。


image.png

数据质量、分布分析

4.2.1占比分析:

image.png

4.2.2 贡献度分析:

image.png

4.3 定时数据分布分析方法

寻找事件发生结果随时间变化的规律


image.png

4.3.1 周期性分析

傅利叶, 画图分析法

4.3.2 时间序列分析

image.png

5. 描述性分析-四层次之一

image.png

image.png

漏斗分析法


image.png

用户留存分析

用户画像分析
-- 标签属性分类
-- 热点图

6. 诊断性分析-四层次之二

image.png

分析步骤6步,见上面。


image.png

image.png

image.png

image.png

7. 预测性分析-四层次之三

7.1 分类分析的方法、步骤及应用案例

分类是简化认识、降低管理成本、提升管理效率的重要手段。
常见的分类方法:决策树算法、随机森林算法、KNN-最近邻分类算法、神经网络算法

决策树算法:

image.png

image.png

7.2 聚类分析的方法、步骤及应用案例

聚类分析:仅依据数据中发现的描述对象的特征,将数据进行分组,其目标是,组内的对象相互间是相似的,而不同组之间的对象是不同的。


image.png

K-means算法

image.png

image.png

计算距离方法:欧氏距离、曼哈顿距离

聚类质量评估方法

image.png

聚类结果的处理方法

各分群的特点是什么
对不同群体采用不同处理方式
RF模型

分类与聚类的区别

分类是知道分类结果,监督学习
聚类 无监督学习

7.3 关联分析的方法、步骤及应用案例

挖掘性分析方法:关联分析
发现隐藏在大型数据集下的有意义的联系。

7.3.1 关联分析的步骤

image.png

7.3.2 常用算法

image.png

APriori算法

核心目标:降低产生频率项集的复杂度
如是要一个项集是频繁的,其子集也是非频繁的。
如是要一个项集是非频繁的,其超集也是非频繁的。
步骤一、寻找频率项集
步骤二、计算置信度


image.png

7.4 离群点检测的方法、步骤及应用案例

羊毛党识别、故障设备识别、欺诈检测

检测方法

image.png

7.4.1常见的统计方法

image.png

7.4.2 箱形图分析

image.png

7.4.3基于邻近度的离群点检测

image.png

7.4.4 基于密度的离群点检测

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,165评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,503评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,295评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,589评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,439评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,342评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,749评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,397评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,700评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,740评论 2 313
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,523评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,364评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,755评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,024评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,297评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,721评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,918评论 2 336

推荐阅读更多精彩内容