频数分布
频数分布的定义:在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为频数分布。又称分布数列。分布数列包括两个要素:总体按其标志所分的组和各组所分布的单位数。
1.频数分布的意义
统计分布是统计分析结果的一种重要表现形式,也是统计分析的一种重要方法。由于在描述性统计时、只用平均值、方差等统计时会产生数据的信息缺失、需要一些其他方法来表示样本的实际状况。由于其分布概率分布近似、通常可以用来推断数列的分布情况。
2.频数分布的特征
社会经济现象总体的性质不同,其次数分布的特征也不同。各种社会经济现象总体的次数分布,归纳起来主要有钟型分布、U型分布、J型分布和洛伦兹分布四种类型。
2.1钟形分布
钟型分布是正态分布的俗称,其特征是“中间高,两头低”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,形如古钟
在社会经济现象中,钟型分布多表现为对称分布。对称分布的特征是中间的变量值分布的次数最多,以标志变量中心为对称轴。两侧变量值分布的次数随着与中心变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈对称分布。这种分布在统计学中称为正态分布。在社会经济现象中,许多变量的分布近似于正态分布类型。
Example
如从业人员的年收入、农作物单产、零件尺寸、学生考试成绩、社会财富分布等。正态分布在社会经济统计学中具有重要意义。这是因为,一方面。社会经济现象中大部分分布呈近似正态分布;另一方面,正态分布理论是抽样推断的基础。
2.2 U型分布
靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头高,中间低”的U字型分布。
Example
如人口死亡现象按年龄分布便是如此。由于人口总体中幼儿和老年人死亡人数较多,而中年人死亡人数较少,因此,死亡人数按年龄分组便近似地表现为U 型分布
2.3 J型分布
在社会经济现象中,次数随着变量值的增加而增加,即J形分布。
Example
如农作物产量按土地面积分布、人口数按零售商品销售额分布、工人数按总产值分布、库存量按库存费用分布等。
2.4 倒J分布
在社会经济现象中,次数随着变量值的增加而减少,即J型分布。
Example
如企业数按投资额分布、人口数按年龄大小分布等
2.5 洛伦兹分布
洛伦兹分布曲线是美国统计学家洛伦兹( M.Lorenz)提出来的,专门用以研究社会收入分配的平等问题。
横轴OH表示人口的累计百分比,纵轴OM表示收入的累计百分比,弧线OL为洛伦兹曲线。洛伦兹曲线的弯曲程度有着重要的意义,它反映了收入分配的不平等程度。弯曲程度越大,收人分配越不平等,反之亦然。
洛伦弦曲线与对角线之间的部分A 叫做“不平等面积”,直角三角形OHL的面积(A+B)叫做“完全不平等面积”。不平等面积与完全不平等面积之比,就是基尼系数,也称集中系数:基尼系数=A/(A+B)。
基尼系数等于1,表示收人分配绝对不平等;基尼系数等于0,表示收人分配绝对平等。基尼系数是衡量,一个国家或地区贫富差距的标准之一。按照联合国有关组织规定:基尼系数若低于0.2表示收人平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收人差距较大;0.5 以上表示收人差距悬殊。通常把0.4作为收人分配差距的“警戒线”。发达国家的基尼系数在0.26-0.38 之间,我国2013年全国居民收人的基尼系数为0.473。
3.频数分组方法
-
确定全距
确定全距前,要检查数据组两端有没有极端值。如果有极端值且个数较少,应考虑将极端值归入开口组,计算全距前,可去掉极端值。 -
确定组距和组数
组距=全距/组数,当全距一定时。组距越大,组数就越少;组距越小,组数就越多,在实际应用中。组距一般应采用整数,最好是5或10的整倍数。也可以通过Sturges提出的经验公式来确定组数K:K=1+lnN/ln2。 -
确定组限
组限要根据变量的性质来确定。如果变量值相对集中,无特大或特小的极端值时,则采用闭口式:反之,如果有特大或特小的极端值时。则采用开口式,将极端值归入开口组中。 -
计算各组的频数
经过上述三个步骤以后,就可以把总体各单位按变量值的大小分配到各组。计算各组的次数和频率