数据挖掘
数据挖掘,英文名称为Data mining,简称DM。
数据挖掘,它是数据库知识发现中的一个步骤。
数据挖掘,一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
使用
分析方法
- 分类
- 估计
- 预测
- 相关性分组或关联规则
- 聚类
- 复杂数据类型挖掘(Text、Web、图形图像、视频、音频)
方法简介
分类
首先在数据中选出已经分好类的训练集,在该训练集运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
例如:
- 信用卡申请者,分类为低、中、高风险
注意:类的个数是确定的,预先定义好的
估计
估计与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值 的输出;分类的类别是确定数目的,估值的量是不确定的。
例如:
- 根据购买模式,估计一个家庭的孩子个数
- 根据购买模式,估计一个家庭的收入
预测
通常,预测是通过分类或估值起作用的,通过分类或估值得出模型,该模型用于对未知变量的预言。
相关性分组或关联规则
决定哪些事情将一起发生。
例如:
- 超市中客户在购买A的同时,经常会购买B,即A =>B(关联规则)
- 客户在购买A后,隔一段时间,会购买B(序列分析)
聚类
聚类是对记录分组,所相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
例如:
- 一些特定症状的聚集可能预示了一个特定的疾病
- 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
描述和可视化
是对数据挖掘结果的表示方式。一般只是指数据可视化工具,包含报表工具和商业智能分析产品(BI)统称。