汇总统计-值集合的均值和标准差等
可视化-直方图和散布图等
OLAP-分析功能集中在从多维数据数组中创建汇总表的各种方法。包括在不同维上或不同属性值上聚集数据,如给定基于产品、位置和日期记录的销售信息,则可以使用OLAP技术创建按月和按产品类别描述特定地点的销售活动汇总。
百分位数(percentile)
针对有序数据,考虑值集的百分位数更有意义。具体的说,给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数Xp是一个X值,使得X的p%观测值小于Xp。
从1到10的整数百分位数X0%,X10%,...,X90%,X100%依次为:1.0,1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5,10.0。按照惯例,min(x)=X0%,而max(x)=X100%。
位置度量:均值和中位数
对于连续数据,最广泛使用的是均值和中位数,他们是值集位置的度量。
为了克服传统均值定义的问题,又是使用截断均值的概念。指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值,而标准均值是对应于p=0%的截断均值。
散布度量:极差和方差
绝对平均偏差(AAD)、中位数绝对偏差(MAD)、四分位数极差(IQR)
对于多元数据,每个属性的散布可以独立于其他属性。对于具有连续变量的数据,数据的散布更多的用协方差矩阵(covariance matrix)S表示,其中,S的第ij个元素sij是数据的第i个和第j个属性的协方差。这样,如果xi和xj分别是i个和第j个属性,则
sij=covariance(xi,xj)
xki和xkj分别是第k个对象的第i个和第j个属性的值。
可视化
快速吸取大量可视化信息,并发现其中模式。
一般概念:
1.表示:将数据映射到图形元素
2.安排:项。正确选择对象和属性的可视化表示是基本的要求。
3.选择:删除或不突出某些对象和属性。
技术:
1.少量属性的可视化:
茎叶图
直方图:相对频率直方图、Pareto直方图、二维直方图
盒状图
饼图
百分位数图和经验累计分布函数(ECDF)
散布图、散布图矩阵
可视化事件空间数据:
等高线图
曲面图
矢量场图
低维切片
动画
可视化高维数据:
矩阵
平行坐标系
星形坐标和Chernoff脸
OLAP和多维数据分析
分析多维数据:
数据立方体:计算聚集量
维归约和转轴
切片和切块
上卷和下钻