全距(极差):用于量度数据集分散程度的一种方法。
算法:用数据集中的最大数减去数据集中的最小数,即上界(极大值) — 下界(极小值)
全距仅能描述数据的宽度,无法描述数据在上下界之间的分布形态,出现异常值则无法掌控局面。
四分位数:将整批数据一分为四的几个数值。
四分位距:上四分位数 — 下四分位数
通过四分位距将异常值排除在外的意义:
得到一种对几个数据集进行比较且比较结果不会被异常值扭曲的办法
求四分位数的方法步骤:
百分位数:将数据一分为百的数值
十分位数:数据被分为10份,起分割作用的数值就是十分位数
百分位距:用百分位数构建一个新的距
求百分位数的方法步骤:
用箱线图可以直观比较各个数据集的距
方差:量度数据分散情况的方法,是数值与均值距离的平方数的平均值
标准差:描述典型值与均值距离的方法。其最小值为0
标准分:对不同环境下的相关数据进行比较的一种方法。可以把这些数值视为来自同一个数据集或数据分布