先从概念上了解数据挖掘
为什么进行数据挖掘
我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。
数据挖掘能把大型数据转化成知识
数据挖掘是信息数据的进化
可以挖掘什么样的数据
数据库数据
关系数据库是表的汇集,表中通常有大量关系数据
数据仓库数据
数据仓库是从一个或者多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点
事务数据
事务数据库的一个记录代表一个事务,比如顾客的一次购物
其他类型数据
比如多媒体数据等等...
可以挖掘什么类型的模式
特征化与区分
数据特征化
目标类数据的一般或者全部汇总,特征化的输出一般使用饼图、条形图、曲线图等等,比如汇总一年花费5000元以上的用户
数据区分
将数据对象的一般特征进行比较
挖掘频繁模式、关联和相关性
用于预测分析的分类与回归
分类:找出描述和区分数据类或者概念的模型,比如决策树
相关分析:试图识别与分类与回归过程显著相关的属性
回归:一种常用的数值预测的统计学方法
聚类分析
分析数据对象,不考虑类标号
离群点分析
对和一般数据特征明显不同的数据进行分析
使用的技术
统计学:研究数据的收集、分析、解释和表示
机器学习:分为监督学习、无监督学习和半监督学习三种
数据库系统与数据仓库
信息检索
面向什么类型的应用
哪里有数据,哪里就有数据挖掘
电子商务
web搜索引擎
等等..
数据挖掘面临的问题
1、挖掘方法
2、用户交互
3、有效性与可伸缩性
4、数据类型的多样性
5、数据挖掘与社会