2.1数据类型
2.1.1属性和度量
2.1.2数据集的类型
-数据集的一般特性:维度,稀疏性,分辨率
-数据集类型:记录数据、基于图形的数据、有序数据(时序数据,序列数据,时间序列数据,空间数据)
2.2数据质量
通常必须解决的数据质量问题包括:噪声和离群点,数据遗漏,不一致或重复,数据有偏差
2.2.1测量和数据收集问题
噪声和伪像/精度、偏倚和准确率(鲁棒算法)/离群点/遗漏值/不一致值
2.2.2关于应用的问题
2.3数据预处理
数据预处理是:选择分析所需要的数据对象和属性、以及创建改变属性,目的是为了改善数据质量。
2.3.1聚集:
聚集是删除属性的过程,聚集可以获得较小的数据集,属性群的行为更稳定
2.3.2抽样
数据挖掘抽样是因为处理所有的数据成本太高,当抽样样本很难确认时,用渐进抽样。
2.3.3维归约
维归约:通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。维归约可以删除不相关的特征并降低噪声,并且由于特征较少更容易理解。常用的方法是使用线性代数技术,将数据由高维度投影到低纬度空间(主成分分析,奇异值分解)
2.3.4特征子集选择
降维的另一种方法,选择特征子集的方法:嵌入(特征选择作为数据挖掘算法的一部分,比如构造决策树分类器)、过滤(独立于数据挖掘任务的方法)和包装,特征加权。
2.3.5特征创建
创建新特征的目的是更有效地捕获数据集中的重要信息。创建新属性的方法:特征提取(由原始数据创建新的属性集),映射数据到新空间(对时间序列实施傅里叶变换)、特征构造(密度)
2.3.6离散化和二元化
分类算法中要求数据是分类属性形式。
离散化包括非监督离散化和监督离散化。非监督离散化常用等宽、等频率、K均值方法,监督离散化:熵最小
2.3.7变量变换
简单函数变换和规范化:使用变量变换时需要小心,因为它们改变了数据的特性。
规范化和标准化:目的是使整个值的集合具有特定的性质。
2.4相似性和相异性的度量
基础:相似性:两个对象相似程度的数值度量
变换:通常把相似度转化成相异度(或相反)
2.4.2简单属性之间的相似度和相异度
(标称属性,序数属性,区间或比率属性)
2.4.3数据对象之间的相异度
2.4.4数据对象之间的相似度
2.4.5邻近性度量的例子
-二元数据的相似性度量(SMC,Jaccard)
-余弦相似度(考虑映射和长度,常用于文档相似度)
-广义Jaccard系数
-相关性(pearson相关,bergman散度)
2.4.6领近度计算问题(属性不同尺度或者具有相关性,不同类型的属性,不同权重的属性)