数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是数据的集中趋势描述,数据的离散程度描述和数据的分布形态描述。
集中趋势描述
数据的集中趋势描述是寻找反映事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好地反映事物目前所处的位置和发展水平。主要描述指标包含:
1. 众数、中位数、平均数
- 众数
数据集合中出现次数最多的数值被称为众数。
备注:数据集中时有效,可以具有多个众数。如果数据集合中所有数据值出现的次数相同,那么该数据集合没有众数。 - 中位数
按照升序排列数据后:
-
n为奇数时,
-
n为偶数时,
备注:中位数与算术平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时,能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。
- 平均数
指在一组数据中所有数据之和再除以这组数据的个数,计算公式同算数平均数。
2. 算数平均值、加权平均值、几何平均值
- 算数平均数
将数据集合的所有数据值相加的和除以数据值个数就得到简单算术平均
值。
假设有一组包含n个数值的数据集合,它们的数值分别为x1 ,x2 ,…,xn ,该数据集合的简单算术平均值的计算公式为:
- 加权平均值
有时每个数据值的权重不一样,需要用加权算术平均值来表示数据集合的集中趋势。
假设有一个数据集合,总共包括k个不同类别的数据组,各组的简单算术平均值表示为x-1,x-2,…,x-k,每个数据组的数值个数分别为f1,f2,…,fk,每组的数值个数就是每个数据组的权重,那么加权算术平均值的计算公式可以表示为:
备注:简单算术平均值可以看作是所有数值的权重都为1的加权算术平均值,即所有数值的重要性相同。
算数平均值缺陷:当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,其计算结果会掩盖数据集合的真实特征,这时算术平均值就失去了代表性。- 几何平均值
有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。
几何平均值被用于各种定比数据的平均值计算。
假设有一个定比数据集合,集合中的数值分别为x1,x2,…,xn,且所有的数值均大于 0,那么该数据集合的几何平均值的计算公式为:
- 几何平均值
离散程度描述
1. 数值型数据:极差、平均偏差、方差、标准差
- 极差
极差又被称为全距,是指数据集合中最大值与最小值的差值,表示
整个数据集合能够覆盖的数值距离。
现有数据集合(xmin,x2,…,xmax),全距的计算公式为:
- 平均偏差
平均偏差的数值代表了所有数值与平均值的平均偏差距离。
平均偏差的计算公式为:
备注:①平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;②平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。 -
方差
(1)总体方差:如果数据集合(x1,x2,…,xn)就是数据总体,并且数据集合有N个数值,假设数据总体的均值为μ,那么总体方差σ2的计算公式为:
(2)样本方差:为了区分,样本的均值用x-表示,样本方差用s2表示,样本标准差用s表示。假设样本容量为n,那么样本方差的计算公式为: -
标准差
(1)总体标准差是方差的正值平方根,其计算公式为:
(2)样本标准差:
样本标准差的计算公式为:
2. 顺序数据:四分位数
(1)先将数字由小到大排序:下四分位数Q1,又称“较小四分位数”.
(2)第二四分位数 (Q2),又称“中位数”
(3)上四分位数Q3,又称“较大四分位数”
(4)四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1)这个差值区间包含了整个数据集合50%的数据值。
Q1-Q2之间距离的差的一半又称为分半四分位差。
3. 分类数据:异众比率。
①主要适合测度分类数据的离散程度
②异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;
③异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好;
相对离散程度描述
变异系数
如果两者的方差和标准差相等时,那么到底哪个数据集合的离散程度更高、更低或相同?对于这个问题,方差和标准差解决不了,变异系数却可以。
总体的变异系数计算公式为:
样本的变异系数计算公式为:
备注:①变异系数越小,变异(偏离)程度越小,风险也就越小;
②变异系数越大,变异(偏离)程度越大,风险也就越大。
分布的形状
偏态系数
图片来源于网络
备注:
(1)看长尾在哪边就是往哪偏;
(2)峰左移,右偏态;
(3)峰右移,左偏态;
(4)偏态系数:SK< 0 左偏,又称为负偏;SK> 0 右偏,又称为正偏。
(5)当样本增大时,其均数趋向正态分布
加权偏态系数计算公式:
峰态系数
正态分布的峰度K=3,均匀分布的峰度K=1.8。
备注:除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布。
kurtosis=K-3 称为超值峰度
kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多
kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少
注:此文章部分节选于《人人都会数据分析》。![ffff.jpeg]