学习数据分析最重要的基础之一是描述统计学,我推荐《深入浅出统计学》这本书,那什么是描述统计学呢?
描述统计学就是将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些有代表性的数字来代表所有的数据,其中有4个很重要的知识点,分别是平均值(μ)、四分位数、标准差(σ)、标准分(z)。
1、平均值(μ)
平均值(μ)也叫均值,就是****将所有数据相加再除以数据的个数。
计算公式为:平均值的作用:给出典型值(不存在异常值时用)。
异常值:与其他数据格格不入的极高或极低的数值。
平均值的危害:存在异常值时会将数据拉高或拉低,并不能反映数据的真实情况。
例如:有一个小朋友的游泳班,这个班共有5位小朋友,他们的年龄分别为1、2、3、4、5岁,则这个班的年龄平均值为:结果平均年龄为9岁,明显不符合这个班的情况,这就是异常值对平均值的影响。
为了消除异常值对平均值的影响,可以采用四分位数。
2、四分位数
在了解四分位数前,需要先了解众数、中位数和全距。
众数:在数据集中出现最频繁的一个数值。
求众数的方法:中位数:永远处于中间的一个数值。
求中位数的方法:全距(也叫极差):是用于量度数据集分散程度的一种方法。其算法为:上界-下界,其中上界为最大值,下界为最小值。例如:
四分位数:就是将整批数据一分为四的几个数值。例如:
其中最小的四分位数(Q1)称为下四分位数或第一四分位数,最大的四分位数(Q3)称为上四分位数或第三四分位数。中间的四分位数(Q2)就是中位数,因为它将数据一分为二。
求下四分位数和上四分位数的位置:四分位距 = 上四分位数(Q3) - 下四分位数(Q1)
四分位距的作用是剔除异常值。数据往往存在异常值,而四分位距恰恰能规避掉偏大和偏小的异常值,从而达到数据准确均值的目的。
四分位数的作用:
1)运用箱线图对不同类别的数据进行比较
箱线图(或称箱形图),就是将四分位距画成箱子的形状,箱的左右两边分别代表下四分位数和上四分位数,在箱中画一条线标示出中位数,箱子的长度表示四分位距。如下图所示:案例:假如有两位球员的得分如下:
球员A:3,3,6,7,7,10,10,10,11,13,30
球员B:8,9,9,10,10,10,11,11,12,12,13
用代码实现如下:从箱线图的结果可以看出,两位球员的中位数相同,球员A的全距比较大,有时候这位球员的得分比球员B高,有时候又比球员B低,总体来说球员B发挥更稳定。
2)识别出可能的异常值
采用Tukey’s test方法计算最小估计值和最大估计值,如下:其中,当数据中度异常时k取值为1.5;当数据极度异常时k取值为3,根据前面案例的数据选取K=1.5代入公式计算:
A球员得分:
最小估计值:6-1.5(11-6)=-1.5
最大估计值:11+1.5(11-6)=18.5
B球员得分:
最小估计值:9-1.5(12-9)=4.5
最大估计值:12+1.5(12-9)=16.5
从上面结果来看,球员A的得分中有一个异常得分30分超出最小估计值和最大估计值的范围,因此可以把这个异常值排除并方便检查导致异常值的原因。
3、标准差(σ)
方差:量度数据分散性的一种方法,公式如下:
标准差:描述典型值与均值距离的一种方法(波动大小或离散程度),标准差越小,数值离均值越近(越稳定)。公式如下:
4、标准分
标准分:表示某个数值距离平均值多少个标准差。
案例应用:常使用6西格玛进行质量管理
这个标准差(西格玛),通常用每百万次采样数的缺陷率来衡量。
1个标准差,就是每百万件抽样中,有69万个不合格,相当于一本书每页有170个错别字。
3个标准差就是每百万件抽样中,有6.7万个不合格,相当于一本书每页有1.5个错字。
6个标准差就是每百万件抽样中,有3.4个不合格,相当于整个小型图书馆的所有藏书中,只有1个错别字。
�