统计学-数据的描述性统计

数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是数据的集中趋势描述数据的离散程度描述数据的分布形态描述

集中趋势描述

数据的集中趋势描述是寻找反映事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好地反映事物目前所处的位置和发展水平。主要描述指标包含:

1. 众数中位数平均数

  • 众数
    数据集合中出现次数最多的数值被称为众数。
    备注:数据集中时有效,可以具有多个众数。如果数据集合中所有数据值出现的次数相同,那么该数据集合没有众数。
  • 中位数
    按照升序排列数据后:
  1. n为奇数时,
    n为奇数
  2. n为偶数时,

    n为偶数

    备注:中位数与算术平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时,能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。

  • 平均数
    指在一组数据中所有数据之和再除以这组数据的个数,计算公式同算数平均数。

2. 算数平均值加权平均值几何平均值

  • 算数平均数
    将数据集合的所有数据值相加的和除以数据值个数就得到简单算术平均
    值。
    假设有一组包含n个数值的数据集合,它们的数值分别为x1 ,x2 ,…,xn ,该数据集合的简单算术平均值的计算公式为:
    算术平均值
  • 加权平均值
    有时每个数据值的权重不一样,需要用加权算术平均值来表示数据集合的集中趋势。
    假设有一个数据集合,总共包括k个不同类别的数据组,各组的简单算术平均值表示为x-1,x-2,…,x-k,每个数据组的数值个数分别为f1,f2,…,fk,每组的数值个数就是每个数据组的权重,那么加权算术平均值的计算公式可以表示为:
    加权平均值

    备注:简单算术平均值可以看作是所有数值的权重都为1的加权算术平均值,即所有数值的重要性相同。
    算数平均值缺陷:当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,其计算结果会掩盖数据集合的真实特征,这时算术平均值就失去了代表性。
    • 几何平均值
      有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。
      几何平均值被用于各种定比数据的平均值计算。
      假设有一个定比数据集合,集合中的数值分别为x1,x2,…,xn,且所有的数值均大于 0,那么该数据集合的几何平均值的计算公式为:
      几何平均值

离散程度描述

1. 数值型数据:极差平均偏差方差标准差

  • 极差
    极差又被称为全距,是指数据集合中最大值与最小值的差值,表示
    整个数据集合能够覆盖的数值距离。
    现有数据集合(xmin,x2,…,xmax),全距的计算公式为:
    极差
  • 平均偏差
    平均偏差的数值代表了所有数值与平均值的平均偏差距离。
    平均偏差的计算公式为:
    平均偏差

    备注:①平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;②平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。
  • 方差

    (1)总体方差:如果数据集合(x1,x2,…,xn)就是数据总体,并且数据集合有N个数值,假设数据总体的均值为μ,那么总体方差σ2的计算公式为:
    总体方差

    (2)样本方差:为了区分,样本的均值用x-表示,样本方差用s2表示,样本标准差用s表示。假设样本容量为n,那么样本方差的计算公式为:
    样本方差
  • 标准差

    (1)总体标准差是方差的正值平方根,其计算公式为:
    总体标准差

    (2)样本标准差:

    样本标准差的计算公式为:
    样本标准差

样本标准差s对总体标准差σ的估计误差为:
样本标准差s对总体标准差σ的估计误差

2. 顺序数据:四分位数

(1)先将数字由小到大排序:下四分位数Q1,又称“较小四分位数”.
(2)第二四分位数 (Q2),又称“中位数”
(3)上四分位数Q3,又称“较大四分位数”
(4)四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1)这个差值区间包含了整个数据集合50%的数据值。
Q1-Q2之间距离的差的一半又称为分半四分位差。


四分位数

3. 分类数据:异众比率
异众比率

①主要适合测度分类数据的离散程度
②异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;
③异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好;

相对离散程度描述

变异系数

如果两者的方差和标准差相等时,那么到底哪个数据集合的离散程度更高、更低或相同?对于这个问题,方差和标准差解决不了,变异系数却可以。
总体的变异系数计算公式为:

总体的变异系数

样本的变异系数计算公式为:
样本的变异系数

备注:①变异系数越小,变异(偏离)程度越小,风险也就越小;
②变异系数越大,变异(偏离)程度越大,风险也就越大。

分布的形状

偏态系数
偏态分布
图片来源于网络

备注:
(1)看长尾在哪边就是往哪偏;
(2)峰左移,右偏态;
(3)峰右移,左偏态;
(4)偏态系数:SK< 0 左偏,又称为负偏;SK> 0 右偏,又称为正偏。
(5)当样本增大时,其均数趋向正态分布

偏态系数计算公式:
偏态系数

加权偏态系数计算公式:
加权偏态系数

峰态系数
峰态分布

正态分布的峰度K=3,均匀分布的峰度K=1.8。
备注:除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布。
kurtosis=K-3 称为超值峰度
kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多
kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少

峰态系数计算公式:
峰态系数

注:此文章部分节选于《人人都会数据分析》。![ffff.jpeg]

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342