title: Hadoop学习笔记(1)
date: 2016-08-23 20:57:36
categories:
- 大数据分析
tags: - Hadoop
- 大数据分析
数据挖掘基础
数据挖掘基本任务
数据挖掘的基本任务就是利用
- 分类与预测
- 聚类分析
- 关联规则
- 时序模式
- 偏差检测
- 智能推荐
等方法挖掘出数据中的价值。
数据挖掘建模过程
定义挖掘目标
想要充分发挥数据挖掘的价值,就要对目标进行必要的分析,明白到底想要干什么。
数据取样
定下了目标之后,接下来需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。
抽取子集的标准,主要有
- 相关性
- 可靠性
- 有效性
衡量数据质量的标准主要由:
- 资料是否完整
- 数据是否准确(应当反应正常情况而不是异常情况)
为了保证数据的准确,应当选择合适的抽样方式,常见的抽样方式有:随机抽样,等距抽样,分层抽样,从起始顺序抽样,分类抽样。
数据探索
当我们拿到一个样本数据集后,它是否满足我们的需求;数据中有没有什么规律和趋势;有没有出现过从未设想过的数据状态;属性之前有什么相关性;他们可以区分成怎样一些类别等等,这都是需要探索的内容。
常用的数据探索主要包括两方面:
数据质量分析
主要任务是检查原始数据中是否存在脏数据。
缺失值分析
数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失。两种都会造成分析结果的不准确。对这些值进行一定的处理是非常有必要的。
异常值分析
异常值分析是检查数据中是否含有不合理的部分。
数据一致性分析
数据一致是指数据不存在矛盾和不相容,这些错误会影响程序的运行。
数据特征分析
分布分析
分布分析能够揭示数据的分布特征和分布类型。
对比分析
对比分析是指将两个相互关联的指标进行比较。
统计量分析
用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。
周期性分析
探索某个变量是否随着时间变化而呈现出某种周期性变化趋势。
贡献度分析
贡献度分析又称为帕累托分析,它的原理是帕累托法则(20/80定律),同样的投入放在不同的地方会产生不同的收益。
个人认为,贡献度分析是 数据分析中很重要的一部分,体现了数据分析的巨大价值。
相关性分析
分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来。
数据预处理
常用的数据预处理方法主要有
数据清洗
- 缺失值处理
- 异常值处理
数据集成
将多个数据源合并放入一个数据源中。
数据变换
- 简单函数变换
- 规范化
- 连续属性离散化
- 属性构造
- 小波变换
数据规约
- 属性规约
- 数值规约
挖掘建模
模型评价
此篇博客的内容大多都是偏向于理论分析,接下来会记录各个部分的具体操作和使用。