[TOC]
探索数据
- 内容:汇总统计、可视化和联机分析处理(OLAP)
- 作用:数据初步探究,利于选择合适的数据预处理和数据分析技术。
汇总统计
汇总统计,summary statistics,用单个数或数的小集合捕获很大的值集的各种特征。
频率(frequence)和众数(mode):值x的频率定义为所有对象中该属性取值为x的对象比率。众数定义为具有最高频率的值。频率和众数能反应一个属性的值的取值情况,但常常对连续变量来说无效,因为连续变量的单个值可能出现次数不过1.
百分位数:在[min,max]区间上划分百分比点,选出每个点上的数,即为p百分位数。如值区间为[0,100]的值x,$$min(x)=0=x_{0%},max(x)=100=x_{100%}$$.百分位数的条件是数据有序。
位置度量——均值和中位数:连续数据常统计均值(mean)和中位数(median),他们是值集位置的度量。均值就是平均数,中位数就是有序序列最中间的某一个值(元素数量为奇数)或中间两个值的平均值(元素数量为偶数)。受离群点、异常值影响,为此提出截断均值(trimmed mean),将有序列的P个百分位去除之后再计算均值,显然这P个百分位会对半分到高端和低端,即去掉最高的百分之0.5P,再去掉最低的百分之0.5P,剩下的数做平均。此处截断针对的值的个数,如100个实体,截断百分之10,则排序后,删除最高5个数,最低5个数。
-
散布度量——极差和方差:极差(range)通俗理解为取值范围,$$range(x)=max(x)-min(x)$$,显然极差是极受异常点影响的。而方差(variance)、标准差(standard deviation)通过均值计算而来,均值也是受离群点影响的,故它俩也是对离群点敏感的。$$variance(x)=s_x2=\frac{1}{m-1}\sum\limits_{i=1}m(x_i-\bar{x})^2$$,而标准差s取方差开方即可。
针对上述离群点影响问题,提出了绝对平均偏差(absolute average deviation,AAD)、中位数绝对偏差(median absolute deviation,MAD)、四分位数极差(interquartile range,IQR)。
$$AAD(x)=\frac{1}{m}\sum\limits_{i=1}^m{|x_i-\bar{x}|}$$
$$MAD(x)=median({|x_1-\bar{x}|,...,|x_m-\bar{x}|})$$
$$interquartile range(x)=x_{75%}-x_{20%}$$,75%-25%的极差,消除了离群点影响
-
多元汇总统计:之前都是针对单个属性,若数据对象包含多个属性(多维、多元数据),数据对象的均值可用每个属性的均值表示。多元数据中,各个属性间通常不是独立的,考虑每个属性的散布可能作用不大,可以尝试分析两两属性间联合的散布情况,即协方差矩阵(covariance matrix,S),矩阵S的第ij个元素表示第i个和第j个属性的协方差。协方差矩阵给出所有的属性对之间的散布度量。
$$s_{ij}=covariance(x_i,x_j)=\frac{1}{m-1}\sum\limits_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}),x_{ki}和x_{kj}$$分别表示第k个对象的第i个和第j个属性的值。
协方差矩阵描述了数据集所有数据在各属性对上的联合散布情况,体现的是属性取值的情况,虽然矩阵元素为0表示该属性对不具有线性关系,但并不能给出关联程度,需要相关矩阵(correlation matrix)给出各属性间的相关性。
$r_{ij}=correlation(x_i,x_j)=\frac{covariance(x_i,x_j)}{s_is_j}$,$s_i$和$s_j$分别表示$x_i$和$x_j$的方差,R的对角线元素显然为1(x与x自身的相关性),其他元素在-1到1之间。
可视化
可视化的目标是形成可视化信息的人工解释和信息的意境模型。
一般概念
- 表示:数据到图形元素的映射。这是可视化的第一步,将数据信息映射成可视形式。
- 对象的三种表示方式:
- 考虑单个分类属性:根据该属性值将对象聚成类。
- 具有多个属性:将对象显示为表的一行或列,或显示为一条线。
- 对象也常常被解释为n维空间中的点。
- 对于属性:其表示取决于属性的类型。每个分类属性可以映射到不同的位置、颜色、形状、尺寸等等。
- 难点:可视化的主要难点是确定一种技术,能表达数据的内在联系,如对象之间、属性之间的联系。
- 对象的三种表示方式:
- 项的安排:可视化中,项的安排对图像的表达起到很大作用,如规则矩阵打乱行列之后可能很难看出其规律性。
- 选择:数据集很大时,图像的显示过密可能会掩盖数据的信息。因此需要适当的选取数据信息。
- 通常多属性可以选取属性子集做表达(通常是两个属性),维度不高的时候可以做属性对(双属性)矩阵观察。选取一对属性的时候采用维归约技术,如PCA。
- 数据点多的时候,可以通过样本抽查方式减少可视化的数据量。
可视化技术
可视化技术通常对于分析的数据是专用性的。
少量属性的可视化
这里主要讨论单个属性观测值的分布和两个属性值之间的关系。
- 茎叶图,stem and leaf plot:观测一维整形或连续数据的分布。类似与横向的直方图。
- 直方图,histogram:对于连续属性值,通常采用分箱。也叫条形图(bar plot),每个条形的面积正比于落在该区间的对象的个数。也可演变成相对频率直方图(relative frequency histogram),用相对频率代替值的计数。
- 二维直方图,two-dimensional histogram:三维图形,三个正交的轴分别表示两个属性值和对应的数据对象的计数。
- 盒装图,box plot:用以显示一维数值属性分布的方法,实质是表达属性所有取值区间上的10\25\50\75\90百分位数的取值,以及离群点。通过盒子中间[25,50,90]这三段两个部分能看出数据的主体分布区间。
- 饼图,pie chart:用于属性取值较少的分类属性,用圆的相对面积表达不同值的相对频率,相比而言,直方图更常用。
- 百分位数图(percentile plot)& 经验累积分布图(empirical cumlative function,CDF):百分位图的两轴分别为百分位值和该百分值时的属性取值,再直线连接这一系列点形成折线图,能看出各百分位的属性取值。经验累积分布图表达各属性值的累积分布概率,横轴为值的取值范围,纵轴表达累计概率([0,1]之间)。
- 散布图,scatter plot:使用数据对象的两个属性值作为坐标轴,每个数据作为平面上的一个点,可以大致看出两个属性之间的联系,或在给出类标号的情况下可以考察两个属性将类分开的程度。同时安排所有属性对的散布图得到一种散布图矩阵(scatter plot matrix),可对比观测出所有属性对的联系。当然散布图还可以拓展为三维散布图,根据三种属性的取值情况在空间中绘制数据对象的点。
时间空间数据可视化
- 等高线图,contour plot:两个属性在指定平面上,第三个属性具有连续性,如温度、海拔等,可采用等高线图。
- 曲面图,surface plot:通常描述数学函数或变化相对较为光滑的物理曲面。
- 矢量场图,vector field plot:略
- 低维切片:对于时间空间数据集,可用一组图对某一维度“切片”,如对时间切片,每一幅图只展现空间和其他数据信息,而时间维度变化可通过一系列图的对比变化得出。
高维数据可视化
- 矩阵:在用矩阵表达多维数据的时候,若给出类标号,则重新排列数据矩阵的次序是有效的。
- 平行坐标系,parallel coordinates:每个属性是一个坐标轴,但所有的属性不正交,而是平行的(类似于直方图的做法,但粒度和侧重不同),对象用线表示。对象每个属性的值映射到与该属性关联的坐标轴上的点,连接这些点,就是该对象的表达。属性坐标轴的次序对于结论直观性影响很大。
- 星型坐标和Chernoff脸:略
可视化原则
ACCENT原则,对于可视化方法的选取原则。
- 理解,apprehension
- 清晰,clarity
- 一致,consistency
- 有效,efficientcy
- 必要,necessity
- 真实,truthfulness
OLAP和多维数据分析
OLAP,联机分析处理,将数据集看做多维数组,每一行表示一个(或一类)对象,每一列是一个属性。当然可以进行合适的数据聚集等处理。