统计学入门级-描述性统计理论

最近加入一个数据挖掘学习小组，热心的群主制定了一个详细的每周学习计划，分为统计学和机器学习两大知识点。学习完要提交作业，以文章输出或者其它方式都行，现在开始第一周的统计学相关知识输出啦，先上一张思维导图。前面部分以文字为主，涉及到的数学公式放在最后。

数据的分布特征与适用的描述统计量总结

一、集中趋势

集中趋势反映各数据向其中心值靠拢或聚集的程度。

㈠众数

数据集合中出现次数最多的变量值被称为众数。
众数可能有一个，也可能有多个。如果所有数据出现的次数都一样，那么这组数据没有众数。
在高斯分布（正态分布）中，众数位于峰值，和平均数、中位数相同。
一般情况下，只有在数据量比较大的情况下，众数才有意义。

㈡中位数

将一组数据按大小顺序排列后，处于中间位置上的变量值就是中位数。计算中位数有两种情况，根据数据个数而定。中位数是一个位置代表值，同样不受极端值的影响。

㈢分位数

也许大家都比较熟悉十分位数，百分位数，但对于四分位数就没那么了解了吧。四分位数是一组数据排序后处于25%（下四分位数）和75%（上四分位数）位置上的值。

箱线图就是利用数据中的五个统计量：最小值、上四分位数、中位数、下四分位数与最大值来描述数据的一种图。额，箱线图经常应用在识别检测异常值方面。

㈣平均数

平均数也称为均值，是一组数据相加后除以数据个数得到的结果。它是集中趋势的最主要测度值。对未经分组数据计算的平均数称为简单平均数，也就是常说的平均数。每年都会看到说哪个城市的平均薪资出炉了，大PK之类的，不看不知道，一看就扎心！

对分组数据计算的平均数称为加权平均数。几何平均数是n个变量值乘积的n次方根，主要用于计算平均比率。

对于具有单峰分布的大多数数据而言，众数、中位数和平均数之间具有以下的关系：

如果数据是对称分布，众数=中位数=平均数

如果数据是左偏分布，说明数据存在极小值，必然拉动平均数向极小值一方靠。而众数和中位数是位置代表值，不受极值的影响，所以平均数< 中位数< 众数

如果数据是右偏分布，说明数据存在极大值，必然拉动平均数向极大值一方靠，则众数< 中位数 < 平均数

不同分布的众数、中位数和平均数大小关系

均值、中位数、众数优缺点：

二、离散程度

离散程度反映各数据远离其中心值的趋势。

㈠数值型数据

① 极差

极差：一组数据的最大值和最小值之差，也称全距，用R表示。极差容易受极端值的影响，不能反映出中间数据的分散情况。

② 平均差

平均差也称平均绝对离差、平均偏差，它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心，反映了每个数据与平均数的平均差异程度。为了避免离差之和等于零而无法计算平均差这个问题，因此采取了绝对值，以离差的绝对值来表示总离差。

③ 方差

方差是各变量值与其平均数离差平方的平均数。

④ 标准差

标准差是方差的平方根。

★ 注意 ★

方差和标准差能较好地反映出数据的离散程度，是应用最广的离散程度的测度值。
样本方差是用样本数据个数减1后去除离差平方和，其中样本数据个数减1，即n-1称为自由度。
与方差不同的是，标准差是有量纲的，它与变量值的计量单位相同，其实际意义比方差清楚。因此，在对实际问题进行分析时会更多地使用标准差。

㈡顺序数据

四分位差

四分位差 IQR（四分位距）：是上四分位数和下四分位数之差。它反映了中间50%的数据的离散程度，其数值越小，说明中间的数据越集中，反之则越分散。同样不受极值的影响。

㈢分类数据

异众比率

异众比率指非众数组的频数占总频数的比例。主要用于衡量众数对一组数据的代表程度。异众比率越大说明众数的代表性越差，越小说明众数的代表性越好。

㈣相对离散程度

离散系数

离散系数又称变异系数， 它是一组数据的标准差与其相应的平均数之比。离散系数主要用于比较不同样本数据的离散程度。离散系数大，说明数据的离散程度越大，离散系数小，说明数据的离散程度也小。

三、分布的形状

㈠偏态系数

偏态是对数据分布对称性的测度。测度偏态的统计量是偏态系数，用SK表示。SK的值越大，表示偏斜的程度越大。

如果一组数据的分布是对称的，离差三次方（具体公式看后面的图）后正负离差可以相互抵消，则SK等于0。

如果分布是非对称的，偏态系数有正有负。SK为正值时，表示正离差值较大，判断为正偏或右偏。

SK为负值时，表示负离差值较大，判断为负偏或左偏。

㈡峰态系数

峰态是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数，用K表示。峰态通常是相对于标准正态分布而言的：

如果一组数据服从标准正态分布，则峰态系数的值为0；

如果峰态系数的值明显不等于0，则表明分布比正态分布更平或更尖，称为平峰分布或尖峰分布。K大于0时为尖峰分布，数据分布更集中；小于0时为扁平分布，数据的分布越分散。

相关的数学公式如下：（手写一遍，加深记忆，哈哈...）

方差、离散系数、偏态系数和峰态系数：

自认为是自己写得很用心的一篇文章啦，嘻嘻！总体来说，上述知识也算消化了大半了，比较不熟悉的是后面的偏态系数和峰态系数，有待后面继续深入探索。下周开始结合Python进行描述性统计实践。在看的小伙伴们如果觉得对你有用的话点个喜欢，发现有不对的地方欢迎留言指正，谢谢~

统计学入门级-描述性统计理论

一、集中趋势

㈠ 众数

㈡ 中位数

㈢ 分位数

㈣ 平均数