1.1什么是数据挖掘
定义:在大型数据存储库中,自动地发现有用信息的过程。
knowledge discovery in database
1.2数据挖掘要解决的问题(面临的问题)
-可伸缩:抽样技术,开发并行,分布算法
-高维性
-异种数据和复杂数据
-数据非所有权与分布
-非传统的分析
1.3数据挖掘的起源
数据挖掘利用了统计学+人工智能、机器学习和模式识别+数据库技术、并行计算、分布式计算。
1.4数据挖掘任务
-预测任务:根据其他属性的值,预测特殊属性的值,用说明变量函数构建目标变量模型。
=分类:离散
=回归:连续
*预测模型可以用来确定顾客对产品促销活动的反应。
-描述任务:(探查性)导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹,异常)
=关联分析:用来描述数据中强关联特征的模式*分析货品连带
=聚类分析:发现紧密相关的观测值组群
=异常检测:识别特征显著不同于其他数据的观测值。