总结自《Python 数据分析与数据挖掘》第1章
从数据中“淘金”,从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘;它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据库技术和人工智能技术的综合。
这种分析方法可避免“人治”的随意性,避免企业管理仅依赖个人领导力的风险和不确定性,实现精细化营销与经营管理。
1.3 数据挖掘的基本任务
利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。
1.4 数据挖掘建模过程
1.4.1 定义挖掘目标
1.4.2 数据取样
在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。
抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部企业数据。
衡量取样数据质量的标准如下:
1)资料完整无缺,各类指标项齐全
2)数据准确无误,反映的都是正常(而不是异常)状态下的水平
对数据进行抽样的常见方式:
*随机抽样:在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样的概率
*等距抽样:如按5%的比例对一个有100组观测值的数据集进行等距抽样,则有100/5=20,共5组观测值
*分层抽样:首先将样本总体分层若干层次(或者说分成若干个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。
*从起始顺序抽样:从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或直接给定选取观测值的组数。
*分类抽样:前几种抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值俩选择数据子集。分类抽样的选取方式是前面所述的几种方式,只是抽样以类为单位。
1.4.3 数据探索
对所抽取的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必需的。
挖掘模型的质量不会超过抽取样本的质量。
数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础
1.4.4 数据预处理
由于采样数据中常常包含许多含有噪声、不完整,甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。
1.4.5 挖掘建模(核心环节)
样本抽取完成并经预处理后,需要考虑:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选用哪种算法进行模型构建?
1.4.6 模型评价
在建模过程中得出一系列的分析结果,模型评价的目的之一就是从这些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。
1.5 常用的建模工具
(1)SAS Enterprise Miner
Enterprise Miner(EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。
(2)IBM SPSS Modeler
它封装了最先进的统计学和数据挖掘技术来获得预测知识,并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。
(3)SQL Server
SQL Server中集成了数据挖掘组件--Analysis Servers,借助SQL Server的数据库管理功能,可以无缝集成在SQL Server数据库中。在SQL Server2008中提供了决策树算法、聚类分析算法、Naive Bayes算法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。但是预测建模的实现是基于SQL Server平台的,平台移植性较差。
(4)Python
Pytho 具备强大的科学及工程计算能力,不但具有以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。
(5)WEKA
WEKA(Waikato Environment for Knowledge Analysis)是一款知名度较高的开源机器学习和数据挖掘软件。
(6)KNIME
KNIME(Konstanz InformantionMiner) 是基于Java开发的,可以扩展使用Weka中的挖掘算法。
(7)RapidMiner
RapidMiner也称为YALE(Yet Another Learning Environment,https://rapidminer.com),提供图形化界面。
(8)TipDM
TipDM(顶尖数据挖掘平台)使用Java语言开发,能从各种数据源获取数据,建立多种数据挖掘模型。