统计学基础 描述统计

最近在公众号认识大V居士老师,最初说要组织人一起系统学习数据挖掘,其中涉及统计+机器学习的理论基础。赶着这么好的机会决定开始行动。第一周主题是描述性统计使用工具为Excel。希望大家不要陷入死记硬背,而是要将每个概念从实际解决问题的环节中抽离,围绕要解决问题,树立目标,选择合适的统计量,然后得出结论。本文会按照三块来讲明白描述统计的几种统计量,实例、公式、概念、扩展附录(包括:Excel的数据是怎么来的,公式使用有哪些技巧)。因为概念具有系统性和相对枯燥性,放在最后的部分对例子中用到的思路进行说明。

第一部分:实例

先来看一组数据:


2013班级同学身体及成绩状况

问题1 这个班级的同学身高体重发育情况如何?围绕这个问题进行拆解:


计算2013班同学年龄身高体重分析过程


计算之后的结果

结论:经过分析,我们对2013班同学整体的身高体重进行汇报:

该班同学主要的年龄平均值为14,其中最多为15岁,排名居中为14岁;

平均身高为149,最多的身高分布为131,排名居中的身高为147

平均体重为56kg,分布最多的是47kg,偏中为55kg

相较体重和身高分布来说均值在56,根据身高体重对照表来说,该班同学整体偏胖

去年一年,身高上涨均值为17%


那么,年龄、身高体重分组趋势是如何的呢?我们将年龄每多一岁为一组,身高每5kg为一组,体重每5kg为一组对每组频率分布进行统计如下图所所示:

年龄身高体重分布图

问题2 班里语文跟数学成绩哪个成绩更好?是否存在两极化差异?分布最集中的分数段在什么地方


语文数学成绩分析


数学语文成绩好坏及分散程度

结论:语文跟数学数据对比分析

相较于语文,数学整体平均分数更高,两极化差异小,最好和最差的差距较小。

数学跟语文一样,都属于非正态分布,成绩分布最集中的在左边,是左偏分布

语文和数学成绩分布都相对分散,不集中


那对数学和语文进行分每4分分一组,查看频率情况,分析结果如下图所示:


语文和数学的分布集中趋势

接着我们按照这个分组更进一步对语文数学众数组的代表度进行分析(异众比率)


异众比率分析

按照每组中分数出现的不同频率进行统计,发现数学异众比率和语文持平均高于50%,说明数学和语文的众数无法很好地代表总体。

综上:这个班的学生体重偏大;语文和数学成绩相比,数学成绩更好,分散更集中。语文两极化分布严重,且优生占比较高

第二部分 统计学概念 描述统计

好哒,以上实例就介绍完成了。接下来我们一一拆解这个实例中用到的统计学概念:

描述性统计顾名思义,对一组数据进行大致的了解和描述。它是对一组数据做分析的基础。那么如何简明扼要的认识这组数据呢?

总体来说,要从三个大的方面来说明:集中趋势:描述整组数据的集中程度;离散程度:数据中的离中趋势,对数据组中各个数据分布情况做出的说明;相对离散程度:变异的偏离程度;分布形状:一眼知道这组数据是否是正态分布还是偏态分布,如果是偏态分布,是正偏态还是负偏态

算数平均数(也叫平均数):表示一组数据集中趋势的量数,一组数据中所有数据之和再除以这组数据的个数

加权平均数:有些时候,每个数据值的权重是不一样的,需要用加权算术平均值来表示数据集合的集中趋势。每个数据可能其所代表的权重不同,先对其进行加权和求和,之后统一除以加权后的数量

几何平均数:有些数据之间的关系不是加减关系而是乘除关系。用几何平均值来表示这样的数值组成的数据集合的集中趋势。比如银行的平均存款年利率、汽车每条生产线平均产品合格率、学生学习成绩平均增长率。既然要计算根号,那需要确保其中所有值都大于0

众数:在数据集合中,只有一个数值出现次数最多,那么这个数据就是该数据集的众数。

中位数:将数据集从高到低排列,最中间的数就是中位数,中位数比平均数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点

数据离中趋势有以下几种统计量:

方差:方差与平均差一样也代表所有数值与平均值偏差的距离,而方差的解决方式是平方

标准差:标准差沿袭了方差的解决方案但是为了处理单位平方的问题对整个公式加了根号

极差(全距):数据集合中最大和最小值的差值,表示整个数据集合能够覆盖的数值距离

平均差:代表所有数值与平均值的平均偏差距离

四分位差:四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集50%的数据值

相对离散程度一般会使用离散系数表示:

离散系数:平均水平不同的变量,不宜直接比较标准差。离散系数能消除变量值水平高低和单位不同的影响。离散系数(变异系数)= 标准差/平均值

具体的分布形态是以下几种:

异众比率:首先对数学成绩分布进行分组,获得众数组,接着查看众数组的数据情况

偏态系数:SK>0 右偏,SK<0,左偏。SK=0,对称。越接近0 ,偏态程度越低。SK越大,偏斜程度越大

峰态系数:正态分布的峰度K=3,均匀分布的峰度K=1.8。

除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布

kurtosis=K-3 称为超值峰度

kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多

kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少

第三部分 如何使用Excel玩转这组数据

1、这组数据是如何随机产生的?

一个重要的公式:RANDBETWEEN(1,100) 可以帮你产生1-100随机数值

2、最后一个实例用到的异众比率是如何一次性计算好的?

Excel对同一组数据进行分组常常用到数据分组的公式,操作如下:选中要填充的单元格,填写公式“=FREQUENCY(B2:B42,H2:H9)”,同时按下Ctrl+shift+enter 即可完成数组运算


666的异众比率计算


最后,附上整个Excel表格,不过貌似简书没有发现插入公式的地方,具体有需要可以联系我 zhaoxiajdt 

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,482评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,377评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,762评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,273评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,289评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,046评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,351评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,988评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,476评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,948评论 2 324
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,064评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,712评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,261评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,264评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,486评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,511评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,802评论 2 345