第四篇 数据概括性的度量

利用数据的图表展示数据,可以对数据的分布形状和特征有一个大致的了解。但是要全面的把握数据的分布特征,还需要找到反映数据分布特征的各个代表值。数据分布的特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据的向其中心的靠拢或者集聚的程度;二是分布的离散程度,反映数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和丰台,这三个方面反映了数据分布的额不同侧面。本篇把重点放在讨论特征值的计算方法、特点及应用场合。

1集中趋势的度量

集中趋势(central tendency) 是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。

低层次数据的净重去试测度适用于高层次的测量数据;反过来,高层次的数据的集中趋势测度并不适用于低层次数据的测量。因此,选用哪一个测度至来反映数据的集中蓄势,要根据所掌握的数据类型和特点来确定。

分类数据:众数(mode)

众数是一组数据中出现次数最多的变量值,用M0表示众数主要用于测度分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度般情况下,只有在数据量较大的情况下,众数才有意义。众数是一个位置代表值,他不受数据中极端值的影响。从分布的角度看,众数是具有明显集中趋势的点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高的峰点,众数也有可能不存在;如果有两个或多个最高峰点,也可以有两个或多个众数。众数示意图如下:


众数示意图

顺序数据:中位数(median)和分位数

在一组数据中,可以找出在某个位置上的数据,这些位置上的数据就是相应的分位数,其中包括中位数、四分位数、十分位数、百分位数等。

中位数(median)是一组数据排序后位于中间位置上的变量值,用M0.

根据为分组的数据计算中位数时,要先对数据进行排序,然后确定中位数的位置。


中位数位置确定公式

数值型数据:平均数(mean)

平均数在统计学中有着重要的地位,是集中趋势的最主要的测度至,它主要适用于数值型数据,而不适用于分类数据和顺序数据。从统计思想上看,平均数是一组数据的中心所在,是数据误差相互抵消后的必然结果。利用平均数抵消误差,反映出事物必然性的数量特征。

根据所掌握数据的不同,平均数有不同的计算形势和计算公式。

简单平均数(simple mean)和加权平均数(weighted mean)

几何平均数(geometric mean)

几何平均数适用于特殊的数据的一种平均数,它主要用于计算平均比率。当所掌握数据本身是比率形式时,选用。


几何平均数

众数、中位数和平均数的比较

众数是一组数据的峰值,不受极端值的影响。其缺点是具有不唯一性,一组数据可能有两个或多个中暑,也可能没有众数。中暑中已有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数重要适合作为分类数据的集中趋势的测度值

中位数是一组数据中间位置上的代表值,不受极端数值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个较好的选择。中位数速重要适合作为顺序数据的集中趋势的测度。

平均数主要是针对数值型数据计算的,而且利用了全部数据信息,他是实际应用最广泛的集中趋势测度值。当数据呈对称分布或者接近对称分布时,3各代表值相等或接近相等,这时则应选择平均数据作为集中趋势的代表值。但平均数的主要缺点是一首数据极端值的影响,对与偏态分布的数据,平均数代表性较差。因此,当数据为偏态分布时,特别是偏斜程度较大时,可以考虑中位数或众数,这时他们的代表性好于平均数。

2离散程度的度量

数据的离散程度是数据分布的一个重要特征,它反映的是各个变量远离其中心的程度。数据离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,代表性就越好。描述数据离散程度采用的测度值,根据数据类型的不同主要有异众比率、四分位差、方差和标准差。此外,还有极差、品均差以及测度相对离散程度的系数等。

分类数据:异众比率(variation ratio)

异众比率是指非中数组的频数占总频数的比率。其计算公式为:


异众比率公式

异众比率主要衡量众数对一组数的代表程度。异种比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率主要适合测度分类输的离散程度,当然,对于顺序数据以及数值型数据也可以计算异众比率。

顺序数据:四分位差(quartile deviation)

四分位差也称为内距或四分间(inter quartile)它是上四分位数与下四分卫数只差,用


四分位差的计算公式

四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表成都。四分卫差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但它不适合分类数据。

数值型数据:方差和标准差

测度数值型数据离散程度的方法主要有极差、平均差和标准差,其中最常用的是方差和标准差。

极差(range):一组数据的最大值与最小值之差,也称为全局,用R表示


极差计算公式

极差是描述数据离散程度最简单测度值,计算简单,易于理解,但是它容易受到极端值的影响,且不能反映中间数据的分散状况,因而不能准确表述数据的分散程度。

平均差(mean deviation

平均差也称为为绝对离差(mean absolute deviation)它是各变量值与其平均数离差绝对值的平均数。

平均差计算公式

平均差以平均数为中心,反映了每个数据与平平局数的差异程度,他能全面准确地反映一组数据的离散状况。平均差越大,说明数据离散程度越大;反之说明离散程度越小。。。。为了避免离差之和等与零而无法计算,平均差在计算时取了绝对值。以离差的绝对值来表示总离差就给计算带来了不变,但平均差的实际意义比较清楚,容易理解。

方差(variance)和标准差(standard deviation

方差是各变量值与其平均数离差平方的平均数,方差开方后得到标准差。与方差不同的是,标准差是有量纲的。


方差和标准差计算公式

相对位置的度量

有了平均数和标准差之后,可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并且可以用它来判断一组数据是否有离群数据。

标准分数(standard score)是变量值与其平均数的离差除以标准差后的值。也称为标准化值或z的分数。设标准分数为z,则有


标准分数

标准分数给出了一组数据中个数值的相对位置。比如,某个熟知的标准分数为-1.5,就知道该数值低于平均数1.5倍的标准差。而上式就是我们常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,常常去要对变量进行标准化处理。


标准分数应用案例

标准分数具有平均数为0、标准差为1的特性。实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的为孩子,也没有改变该组数据的分布形状,而只是将改组数据变为平均数为0、标准差为1.

经验法则

当一组数据对称分布时,经验法则表明:


切比雪夫不等式

经验法则适合对称分布的数据。如果一组数据不是对称分布,经验法则就不再使用,这时可以使用切比雪夫不等式(Chebyshevs inequality),它对任何形状的数据都适用。切比雪夫不等式提供的是“下届”,也就是“所占比例至少是多少”,对与任意分布形态的数据,根据切比雪夫不等式,


切比雪夫不等式数据分布

相对离散程度:离散系数

方差和标准差是反映数据分散程度的绝对值,其对数值的大小一方面受原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平搞的,离散程度的测度值自然也就大,绝对水平低的离散程度的测度至自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测量值也就不同。因此,对于其品均水平不同或计量单位不同组别的变量值,是不能用标准差直接比较离散程度的。为了消除变量水平高低和计量单位的不同对离散程度测度值的影响,需要计算离散系数。

离散系数也称为变异系数(coefficient of variation),它是一组数据的标准差与其相应的平均数之比。其计算公式为:


离散系数或变异系数

3偏态与峰态的度量

偏态(skewness)它是对数据对称性的测度。测量偏态的统计粮食偏态细数(coefficient of skewness),记作SK.

偏态数据计算方法有很多。在根据为分组数据计算偏态系数时,通常采用下面公式:


偏态

峰态及其测度


尖峰分布与平峰分布示意图

根据分组数据计算峰态系数是用离差的四次方的平均数在除以标准差的四次防,其计算公式为:


峰态



数据分布特征与使用的统计描述




最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容

  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,646评论 0 3
  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,469评论 1 58
  • 数据的分布特征可以用柱形图、折线图或饼图等各种图表直观地进行展现。反映数据的分布特征的代表值,通常用集中趋势、离散...
    李小夭阅读 3,361评论 9 4
  • 山绕坡斜,车行低速,盘旋百转簸颠。遍山篁筱翠,瀑流掛崖间。日高口干寻解渴,一掬酣饮,沁透心田。上层巅,纵览...
    海1619阅读 275评论 0 8
  • 一旦放弃,就觉得什么都无关紧要,也再不会受到伤害了。 爱与恨的天平失去了平衡,因为盛着爱的那边太轻,所以反面的恨才...
    EstherVan阅读 204评论 0 1