这是python数据分析系列文章,从统计学基础知识到机器学习,将跟随居士的学习教程持续更新。这一篇主要描述数据集中趋势,离散程度以及分布形态等知识点,下一篇将讲述概率分布。
1.数据集中趋势
1)中位数
按照升序排列数据:
n为奇数时,(n+1)/2位置的数值为中位数
n为偶数时,(n+1)/2位置左右的数据求平均即为中位数
即在这组数据中,有一半的数据比它大,有一半的数据比它小。
2)众数
是一组数据中出现次数最多的数值叫众数,众数可以不存在或多于一个。
3)平均数
算术平均数,又称均值,是统计学中最基本、最常用的一种平均指标,分为简单算术平均数、加权算术平均数。它主要适用于数值型数据。
几何平均是对各变量值的连乘积开项数次方根,主要用于金融场景。
4)分位数
分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值,其中中位数和四分位数较为常用。
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距。
来看看python实现:
nums = [1,2,3,5]
import numpy as np
#中位数
print(np.median(nums)) #返回2.5
#平均数
print(np.mean(nums)) #返回2.75
#分位数(numpy用percentile,padans用quantile)
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
#Q1
q1=np.percentile(a,25)
#Q2
q2=np.percentile(a,50)
#Q3
q3=np.percentile(a,75)
2.数据离散程度
1)极差
即一组数值型数据中最大值和最小值之差,max(x)-min(x),反映了数值样本的数据范围
2)方差和标准差
方差用于衡量数据的分散程度,常见的有总体方差和样本方差,计算方法类似。标准差为方差的平方根。
3) 平均差
是数据组中各数据值与其算术平均数离差绝对值的算术平均数。
4)分位差
其数值越小表明数据越集中,数值越大表明数据越离散。常用的四分位差为:四分位差=(第三个四分位数-第一个四分位数)/2
5)异众比率
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
6)离散系数
离散系数又称变异系数,CV(Coefficient of Variance)表示。CV(Coefficient of Variance):标准差与均值的比值。离散系数越小,数据的离散程度就越小。
看看python实现:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
#求方差
print(np.var(a))
#求标准差
print(np.std(a))
#求平均差
print(np.sum(abs(a-np.mean(a)))/len(a))
![image](https://upload-images.jianshu.io/upload_images/16902082-91c76404bd89a97a.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
#离散系数
print(np.std(a)/np.mean(a))
#返回结果
print(np.var(a),np.std(a),np.sum(abs(a-np.mean(a)))/len(a),np.std(a)/np.mean(a))
8.25 2.8722813232690143 2.5 0.5222329678670935
3.数据分布的形状
1)偏态系数
偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
2)峰态系数
峰度(系数)是一个用于衡量离群数据离群度的指标。峰度(系数)越大,说明该数据系列中的极端值越多。
import numpy as np
from scipy import stats
x = np.random.randn(200)
skew = stats.skew(x)
kurtosis = stats.kurtosis(x)