在上一节介绍了均值、中位数和众数,可以快速了解数据的中心,寻找数据集里的典型值,抓住数据的概貌和趋势,但却无法知道数据的变动和详细分布情况。 本节介绍全距、四分位、k百分方位、方差和标准分来度量数据的变异性。
一 常用度量数据分散性的各种”距“
1全距,也叫极差,它指出数据的扩展范围,度量数据集分散程度。其计算方法是用数据集中的最大值减去最小值。其中,最大值叫上界,最小值叫下界。全距最大优势在于计算简单,最大的劣势在于仅仅描述了数据的宽度,没有展示出数据在上、下界之间的分布情况且容易受异常值的影响。
2 四分位,将数据一分为四,最小的四分位数称为下四分位,最大的四分位数称为上四分位,而中间的四分位数则是中位数。那么,四分位距就是上四分位减去下四分位。四分位距最大的优势是可剔除异常值,劣势是计算稍微较复杂。
3 k百分位是四分位的扩展,即将数据集排序后分成100份。第K分位数就是位于数据范围k%处的数值,常用Pk表示。一般用于划分名次、计算排行等。另外,绘制距的图形一般用箱线图,或简称箱形图。
二 方差或标准差来度量数据的变异性
1 方差是度量数据变异性的有效方法,是数值与均值的距离的平方数的平均值。给方差取平方根,即可得到我们熟悉的标准差。他们的计算方法如下:
2 标准分,表示距离均值的标准差个数, 是对不同数据集中的数值进行比较的一种方法。
三 总结
全距、四分位、k百分方位、方差和标准分用来度量数据的分散性和变异性,可以较清晰的指出数据偏离中心的分布和数据的稳定度。前面几节只是介绍了根据特定的数据,分析特征和图形化表现。下节将介绍根据数据预测未来,即《产品新人学统计学第四课—概率计算》。