数据分析2-频数分布

频数分布

频数分布的定义:在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为频数分布。又称分布数列。分布数列包括两个要素:总体按其标志所分的组和各组所分布的单位数。

1.频数分布的意义

统计分布是统计分析结果的一种重要表现形式,也是统计分析的一种重要方法。由于在描述性统计时、只用平均值、方差等统计时会产生数据的信息缺失、需要一些其他方法来表示样本的实际状况。由于其分布概率分布近似、通常可以用来推断数列的分布情况。

2.频数分布的特征

社会经济现象总体的性质不同,其次数分布的特征也不同。各种社会经济现象总体的次数分布,归纳起来主要有钟型分布U型分布J型分布洛伦兹分布四种类型。

2.1钟形分布

钟型分布是正态分布的俗称,其特征是“中间高,两头低”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,形如古钟


钟形分布

在社会经济现象中,钟型分布多表现为对称分布。对称分布的特征是中间的变量值分布的次数最多,以标志变量中心为对称轴。两侧变量值分布的次数随着与中心变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈对称分布。这种分布在统计学中称为正态分布。在社会经济现象中,许多变量的分布近似于正态分布类型。

Example
如从业人员的年收入、农作物单产、零件尺寸、学生考试成绩、社会财富分布等。正态分布在社会经济统计学中具有重要意义。这是因为,一方面。社会经济现象中大部分分布呈近似正态分布;另一方面,正态分布理论是抽样推断的基础。

2.2 U型分布

靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头高,中间低”的U字型分布。


U型分布

Example
如人口死亡现象按年龄分布便是如此。由于人口总体中幼儿和老年人死亡人数较多,而中年人死亡人数较少,因此,死亡人数按年龄分组便近似地表现为U 型分布

2.3 J型分布

在社会经济现象中,次数随着变量值的增加而增加,即J形分布。


J形分布

Example
如农作物产量按土地面积分布、人口数按零售商品销售额分布、工人数按总产值分布、库存量按库存费用分布等。

2.4 倒J分布

在社会经济现象中,次数随着变量值的增加而减少,即J型分布。


倒J分布

Example
如企业数按投资额分布、人口数按年龄大小分布等

2.5 洛伦兹分布

洛伦兹分布曲线是美国统计学家洛伦兹( M.Lorenz)提出来的,专门用以研究社会收入分配的平等问题。


洛伦兹分布

横轴OH表示人口的累计百分比,纵轴OM表示收入的累计百分比,弧线OL为洛伦兹曲线。洛伦兹曲线的弯曲程度有着重要的意义,它反映了收入分配的不平等程度。弯曲程度越大,收人分配越不平等,反之亦然。

洛伦弦曲线与对角线之间的部分A 叫做“不平等面积”,直角三角形OHL的面积(A+B)叫做“完全不平等面积”。不平等面积与完全不平等面积之比,就是基尼系数,也称集中系数:基尼系数=A/(A+B)

基尼系数等于1,表示收人分配绝对不平等;基尼系数等于0,表示收人分配绝对平等。基尼系数是衡量,一个国家或地区贫富差距的标准之一。按照联合国有关组织规定:基尼系数若低于0.2表示收人平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收人差距较大;0.5 以上表示收人差距悬殊。通常把0.4作为收人分配差距的“警戒线”。发达国家的基尼系数在0.26-0.38 之间,我国2013年全国居民收人的基尼系数为0.473。

3.频数分组方法

  • 确定全距
    确定全距前,要检查数据组两端有没有极端值。如果有极端值且个数较少,应考虑将极端值归入开口组,计算全距前,可去掉极端值。
  • 确定组距和组数
    组距=全距/组数,当全距一定时。组距越大,组数就越少;组距越小,组数就越多,在实际应用中。组距一般应采用整数,最好是5或10的整倍数。也可以通过Sturges提出的经验公式来确定组数K:K=1+lnN/ln2。
  • 确定组限
    组限要根据变量的性质来确定。如果变量值相对集中,无特大或特小的极端值时,则采用闭口式:反之,如果有特大或特小的极端值时。则采用开口式,将极端值归入开口组中。
  • 计算各组的频数
    经过上述三个步骤以后,就可以把总体各单位按变量值的大小分配到各组。计算各组的次数和频率
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容

  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,796评论 0 3
  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,473评论 1 58
  • 描述性统计描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统...
    AnthRax阅读 25,538评论 -1 5
  • 利用数据的图表展示数据,可以对数据的分布形状和特征有一个大致的了解。但是要全面的把握数据的分布特征,还需要找到反映...
    没有那么委屈阅读 2,389评论 0 4
  • 往时见。今不见。风吹偏来雨落渐。落地霜。叶成埝。朝阳不常,夕阳有限。难、难、难。 往时念。今也念。岁月斟酌不能还。...
    裴洛筠阅读 329评论 0 1