最近在自学《数据挖掘(概念与技术)》,为了便于更好地理解此书,在阅读的同时也会用思维导图将知识点列举出来,用来加深印象,也便于以后复习。
每一章都会写一篇文章,用来将整本书所涉及到的知识点罗列出来。也希望能对看到这篇文章的网友有所帮助。
因为简书不支持导图的格式或者表格的格式;所以以图片的方式放了出来。大家在查看时可以“查看原图”,然后放大查看。
以下为知识点的文字版,为了方便有需要的网友,同时也便于被搜索引擎抓取到
第一章 引论
数据挖掘把大型数据集转换成知识
数据丰富,但信息贫乏
数据挖掘的步骤
数据预处理
数据清理
消除噪声和删除不一致数据
数据集成
多种数据源可以组合到一起
数据选择
从数据库中提取与分析任务相关的数据
数据变换
通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式
数据挖掘
基本步骤,使用智能方法提取数据模式
模式评估
根据某种兴趣度度量,识别代表知识的真正有趣模式
知识表示
使用可视化和知识表示技术,向用户提供挖掘的知识
可供挖掘的数据类型
数据库数据
关系数据库
表的汇总
每个表都包含一组属性
元组是表中的记录(行),代表一个对象,被唯一的关键字标识
实体-关系(ER)数据模型
实体
属性
关系
关系数据库是数据挖掘最常见、最丰富的信息源
数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上
数据仓库从历史的角度提供信息,并且通常是汇总的
数据仓库用称作数据立方体的多维数据结构建模。其中,每个维对应模式中的一个或一组属性,而每个单元存放某种聚集度量值。
下钻
向下展开
上卷
向上汇总
事务数据
事务数据库的每个记录代表一个事务,如顾客的一次购物
其他类型的数据
时间相关或序列数据
数据流
空间数据
万维网
等等
可供挖掘的(功能)模式
类/概念区分
数据特征化
是目标数据的一般特性或特征的汇总。通常,通过查询来收集对应于用户指定类的数据
输出:饼图、条图、曲线、多位数据立方体、多维表、广义关系、特征规则
例:汇总一年之内花费5000美元以上的顾客特征
数据区分
是将目标类数据对象的一般特性与一个或多个对比类对象的一般性进行比较。
输出:类似于特征描述,但是区分描述应当包括比较度量,以便帮助区别目标类和对比类。
例:定期购买计算机产品的顾客和不经常购买这种产品的顾客。
挖掘频繁模式、关联和相关性
频繁模式
是在数据中频繁出现的模式
类型
频繁项集
频繁地在事务数据中一起出现的商品集合。
频繁子序列
顾客倾向于先购买便携机,再购买数码相机,然后再购买内存卡
频繁子结构
子结构可能涉及不同的结构形式(图、树、表格),可以与项集或子序列结合在一起。
挖掘频繁模式导致发现数据中有趣的关联和相关性。
单维关联规则
包含单个谓词的关联规则
例:买计算机的顾客,会有一定可能买软件
多维关联规则
包含多个谓词的关联规则
例:年龄20-29岁&&收入为40000-49000美元的顾客,购买了计算机
用于预测分析的分类和回归
分类
它找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号
导出的模型如何表示
分类规则(IF—THEN)
决策树
类似于流程图的树形结构
数学公式
神经网络
回归
建立连续值函数模型;即回归用来预测缺失的或难以获得的数值数据值,而不是离散的类标号。
相关分析可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。我们将选取这些属性用于分类和回归过程,其他属性是不相关的,可以不必考虑。
分类预测类别(离散的、无序的)标号;而回归预测连续值
聚类分析
在许多情况下,开始并不存在标记类的数据。可以通过聚类产生数据组群的类标号
对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组(簇)
离群点分析
与数据的一般行为或模型不一致的数据对象,称之为离群点。
大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而,在一些应用中(欺诈检测),罕见的事件可能比正常出现的事件更令人感兴趣。
判断模式有趣的指标
支持度
表示事务数据库中满足规则的事务所占的百分比
置信度
评估所发现的规则的确信程度
数据挖掘使用的技术
统计学
机器学习
监督学习
分类的同义词
无监督学习
聚类的同义词
半监督学习
主动学习
数据库系统与数据仓库
信息检索
搜索
面向什么应用
商务智能 BI
web搜索引擎
数据挖掘研究的主要课题
挖掘方法
挖掘各种新的知识类型
挖掘多维空间中的知识
数据挖掘--跨学科的努力
提升网络环境下的发现能力
处理不确定性、噪声或不完成数据
模式评估和模式或约束指导的挖掘
用户界面
交互挖掘
结合背景知识
特定的数据挖掘和数据挖掘查询语言
数据挖掘结果的表示和可视化
有效性和可伸缩性
数据挖掘算法的有效性和可伸缩性
并行、分布式和增量挖掘算法
数据库类型的多样性
处理复杂的数据类型
挖掘动态的、网络的、全球的数据库
数据挖掘与社会
数据挖掘对社会的影响
保护隐私的数据挖掘
无形的数据挖掘