最近在公众号认识大V居士老师,最初说要组织人一起系统学习数据挖掘,其中涉及统计+机器学习的理论基础。赶着这么好的机会决定开始行动。第一周主题是描述性统计使用工具为Excel。希望大家不要陷入死记硬背,而是要将每个概念从实际解决问题的环节中抽离,围绕要解决问题,树立目标,选择合适的统计量,然后得出结论。本文会按照三块来讲明白描述统计的几种统计量,实例、公式、概念、扩展附录(包括:Excel的数据是怎么来的,公式使用有哪些技巧)。因为概念具有系统性和相对枯燥性,放在最后的部分对例子中用到的思路进行说明。
第一部分:实例
先来看一组数据:
问题1 这个班级的同学身高体重发育情况如何?围绕这个问题进行拆解:
结论:经过分析,我们对2013班同学整体的身高体重进行汇报:
该班同学主要的年龄平均值为14,其中最多为15岁,排名居中为14岁;
平均身高为149,最多的身高分布为131,排名居中的身高为147
平均体重为56kg,分布最多的是47kg,偏中为55kg
相较体重和身高分布来说均值在56,根据身高体重对照表来说,该班同学整体偏胖
去年一年,身高上涨均值为17%
那么,年龄、身高体重分组趋势是如何的呢?我们将年龄每多一岁为一组,身高每5kg为一组,体重每5kg为一组对每组频率分布进行统计如下图所所示:
问题2 班里语文跟数学成绩哪个成绩更好?是否存在两极化差异?分布最集中的分数段在什么地方
结论:语文跟数学数据对比分析
相较于语文,数学整体平均分数更高,两极化差异小,最好和最差的差距较小。
数学跟语文一样,都属于非正态分布,成绩分布最集中的在左边,是左偏分布
语文和数学成绩分布都相对分散,不集中
那对数学和语文进行分每4分分一组,查看频率情况,分析结果如下图所示:
接着我们按照这个分组更进一步对语文数学众数组的代表度进行分析(异众比率)
按照每组中分数出现的不同频率进行统计,发现数学异众比率和语文持平均高于50%,说明数学和语文的众数无法很好地代表总体。
综上:这个班的学生体重偏大;语文和数学成绩相比,数学成绩更好,分散更集中。语文两极化分布严重,且优生占比较高
第二部分 统计学概念 描述统计
好哒,以上实例就介绍完成了。接下来我们一一拆解这个实例中用到的统计学概念:
描述性统计顾名思义,对一组数据进行大致的了解和描述。它是对一组数据做分析的基础。那么如何简明扼要的认识这组数据呢?
总体来说,要从三个大的方面来说明:集中趋势:描述整组数据的集中程度;离散程度:数据中的离中趋势,对数据组中各个数据分布情况做出的说明;相对离散程度:变异的偏离程度;分布形状:一眼知道这组数据是否是正态分布还是偏态分布,如果是偏态分布,是正偏态还是负偏态
算数平均数(也叫平均数):表示一组数据集中趋势的量数,一组数据中所有数据之和再除以这组数据的个数
加权平均数:有些时候,每个数据值的权重是不一样的,需要用加权算术平均值来表示数据集合的集中趋势。每个数据可能其所代表的权重不同,先对其进行加权和求和,之后统一除以加权后的数量
几何平均数:有些数据之间的关系不是加减关系而是乘除关系。用几何平均值来表示这样的数值组成的数据集合的集中趋势。比如银行的平均存款年利率、汽车每条生产线平均产品合格率、学生学习成绩平均增长率。既然要计算根号,那需要确保其中所有值都大于0
众数:在数据集合中,只有一个数值出现次数最多,那么这个数据就是该数据集的众数。
中位数:将数据集从高到低排列,最中间的数就是中位数,中位数比平均数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点
数据离中趋势有以下几种统计量:
方差:方差与平均差一样也代表所有数值与平均值偏差的距离,而方差的解决方式是平方
标准差:标准差沿袭了方差的解决方案但是为了处理单位平方的问题对整个公式加了根号
极差(全距):数据集合中最大和最小值的差值,表示整个数据集合能够覆盖的数值距离
平均差:代表所有数值与平均值的平均偏差距离
四分位差:四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集50%的数据值
相对离散程度一般会使用离散系数表示:
离散系数:平均水平不同的变量,不宜直接比较标准差。离散系数能消除变量值水平高低和单位不同的影响。离散系数(变异系数)= 标准差/平均值
具体的分布形态是以下几种:
异众比率:首先对数学成绩分布进行分组,获得众数组,接着查看众数组的数据情况
偏态系数:SK>0 右偏,SK<0,左偏。SK=0,对称。越接近0 ,偏态程度越低。SK越大,偏斜程度越大
峰态系数:正态分布的峰度K=3,均匀分布的峰度K=1.8。
除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布
kurtosis=K-3 称为超值峰度
kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多
kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少
第三部分 如何使用Excel玩转这组数据
1、这组数据是如何随机产生的?
一个重要的公式:RANDBETWEEN(1,100) 可以帮你产生1-100随机数值
2、最后一个实例用到的异众比率是如何一次性计算好的?
Excel对同一组数据进行分组常常用到数据分组的公式,操作如下:选中要填充的单元格,填写公式“=FREQUENCY(B2:B42,H2:H9)”,同时按下Ctrl+shift+enter 即可完成数组运算
最后,附上整个Excel表格,不过貌似简书没有发现插入公式的地方,具体有需要可以联系我 zhaoxiajdt