数据对象与属性类型
属性
1)标称属性
2)二元属性(布尔属性 true or false)
3)序数属性
值之间具有有意义的序或级别评定(ranking)
例如:小,中,大 或者 A+ ,A-,B+,B- 。布尔属性和序数属性都是定性的,而不是可测量的量
4)数值属性
定量的,即它是可度量的量,用整数或是数值标识。可以是区间标度的或比率标度的
中心趋势度量:均值,中位数和众数
均值:
中位数:
区别与均值,是对倾斜(非对称)数据,数据中心利用 中位数作为更好的度量。中位数是有序数据值的中间值。它是把数据高的一半与较低的一半分开的值
当观察量很大的时候
众数:
中列数:
度量数据散布:极差,四分位数,方差,标准差和四分位数极差
极差:
分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
四分位数:把数据分布划分成4个相等的部分。使得每部分表示数据分布的四分之一。
百分位数:分成一百分之一
四分位数极差(IQR):IQR = Q3 - Q1
五数概括,盒图与离群点
五数概括:中位数,四分位数Q1 和 Q3,最小和最大观测值
不同数据集间的相异性(数据矩阵与相异性矩阵)
序数属性相异性:
1,每个属性映射到 值域 [0,1]
2,根据从低到高的序数对 0~1 进行拆分 。比如:fail,good,excellent 就分为 0,0.5,1
数值属性相异性:
闵可夫斯基距离
二元属性相异性:
混合属性相异性: