全距:数据集中最大数与最小数之差。
最大数称为上界,最小数称为下界
四分位数
异常值对全距影响很大,因此要摆脱异常值,由于异常值要么很小,要么很大,如果按从小到大的顺序排列数据集,那么异常值肯定在数据两端。因此采用四分位数,将数据集分成四个部分,去掉两端的部分,剩下中间的部分,肯定是不包含异常值的数据集,对这部分数据进行分析,能更加反应数据的真实情况。
四分位距
将数据分成4等份之后,中间2等份的上界减去下界就是要求的四分位居
四分位距=上四分位数-下四分位数
计算四分位距
1.求下细分位数的位置
(1)计算N/4
(2)如果结果为整数,则下四分位数位于“N/4”这个位置和下一个位置的中间,取这两个位置上的数值的平均值,即得到下四分为位数
(3)如果结果为小数,则向上取整,这个整数所对应的位置就是下四分位数。
2.求上四分位数的位置
(1)计算3N/4
(2)如果结果为整数,则下四分位数位于“3N/4”这个位置和下一个位置的中间,取这两个位置上的数值的平均值,即得到上四分为位数
(3)如果结果为小数,则向上取整,这个整数所对应的位置就是上四分位数。
上面两个结果相减,即为四分位距。