最近在做薪酬绩效分析报告,借助Power pivot处理数据,便找了些数据分析的理论知识。真正做分析的时候,发现已被我忘得一干二净的统计学对于描述统计分析有着不可忽视的作用,于是打开百度,从输入“离散程度”开始。(以下所有概念均来自百度,我只是知识的搬运工,为了方便自己学习)
1离散程度
通过对随机变量取值之间离散程度的测定,可以反映各个观测个体之间的差异大小,从而也就可以反映分布中心的指标对各个观测变量值代表性的高低。
通过对随机变量取值之间离散程度的测定,可以反映随机变量次数分布密度曲线的瘦俏或矮胖程度。
1.1离散程度的测度指标
可用来测度观测变量值之间差异程度的指标有很多,在统计分析推断中最常用的主要有极差、平均差和标准差等几种。
1.1.1极差
极差又称全距,是观测变量的最大取值与最小取值之间的离差,也就是观测变量的最大观测值与最小观测值之间的区间跨度。极差的计算公式为:
R= Max(xi)− Min(xi)
1.1.2平均差
平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数。它综合反映了总体各单位标志值的变动程度。平均差越大,则表示标志变动度越大,反之则表示标志变动度越小。
1.1.3标准差
标准差是随机变量各个取值偏差平方的平均数的算术平方根,是最常用的反映随机变量分布离散程度的指标。标准差既可以根据样本数据计算,也可以根据观测变量的理论分布计算,分别称为样本标准差和总体标准差。
标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
例如,两组数的集合 {0,5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7 ,但第二个集合具有较小的标准差。
标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为值都落在一定数值范围之外,可以合理推论预测值是否正确。
2分布中心
随机变量的分布中心是随机变量一切取值的一个代表,可以用来反映其数值的一般水平。
随机变量的分布中心可以揭示随机变量一切取值的次数分布在直角坐标系内的集中位置,可以用来反映随机变量分布密度曲线的中心位置,即对称中心或尖峰位置。
用来测度随机变量次数分布中心的指标可以有多种,其中在统计分析推断中常用的主要有算术平均数、中位数和众数等几种。
2.1算术平均数
算术平均数又称算术均值,是随机变量的所有观测值总和与观测值个数的比值。
2.2中位数
中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。中位数用Me表示。
从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。中位数的作用与算术平均数相近,也是作为所研究数据的代表值。在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。
在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好,因为中位数不受极端变量值的影响;如果研究目的就是为了反映中间水平,当然也应该用中位数。在统计数据的处理和分析时,可结合使用中位数。
2.3众数
众数是指一组数据中出现次数最多的那个数据,一组数据可以有多个众数,也可以没有众数。
3次数分布
分布数列(distribution series)是在统计分组的基础上,将总体的所有单位按某个标志分组归类,将各组的总体单位数汇总,并按一定的顺序排列,形成总体单位在各组的分布,又称为次数分布。
标志:标志是用来说明总体单位特征的名称。例如,研究工人情况时,全部工人是一个总体,每一个工人是一个总体单位。如某工人的性别是男,年龄是32岁,月工资收入为100元,工种是车工等,均称为标志。性别、年龄、工种、月工资收入是标志的名称;男性、32岁,100元、车工则是这些标志的具体表现。标志名称及其具体表现,可以反映每个总体单位的具体情况。
分布在各组的单位数称为次数或频数,以f表示,各组次数与总次数之比称为频率,以f/f表示。次数分布可以表明总体中所有单位在各组的分布特征,并据以研究总体某一标志的平均水平及其变动规律。例如,人口按性别分组后形成的人口数在各组分布情况的数列;学生按年龄分组后形成的学生人数在各组分布情况的数列等,都是次数分布数列。
次数分布数列直观地表明了总体单位的分布特征和结构状况,在此基础上还可以进一步研究其构成、平均水平及其变动规律,它是进行统计分析的一种重要手段。
表1就是次数分布数列的举例。
3.1分布数列的分类
按分组标志的特征不同,分布数列可分为属性分布数列和变量分布数列两种。
3.1.1属性分布数列
按品质标志分组形成的次数分布数列,称为属性分布数列,一般叫品质数列,它由组的名称和各组的次数两要素组成。对于品质数列,如果分组标志选择合适,分组标准定得恰当,那么事物性质的差异表现将会比较明确,总体中各组的划分也就容易解决,从而能准确地反映现象总体的分布特征。
3.1.2变量分布数列
按数量标志分组形成的次数分布数列,称为变量分布数列,一般叫变量数列,由变量值和各组的次数两要素构成。各组次数的多少,反映了各组变量值在总体中作用的大小。
表2是品质数列,反映某地区人口的民族构成状况。表3是变量数列,反映某地区人口的年龄结构情况。
按连续与否,分布数列可分为间断分布数列和连续分布数列两种。
3.1.3间断分布数列
又称不连续分布数列。它是只能以整数而不是小数形式出现的分布数列,比如,年龄分布数列,职工人数分布数列,设备台数分布数列等。
3.1.4连续分布数列
它指能以小数形式表现的分布数列,比如,工资分布数列,产值分布数列,商品销售额分布数列等。
表4是间断分布数列的举例。
表5是连续分布数列的举例。
3.2累计频数分布
分布数列本身既可反映总体的次数分布,而且在进行统计分析时,还可以在次数分布的基础上,进一步研究频数、频率的分布状况。累计频数分布,分别就频数与频率进行累计,表明总体某一标志值的特定数值以下的观察值个数和比率,概括总体各单位的分布特征。
累计频数分布有两种形式:向上累计和向下累计。
3.2.1向上累计频数或比率
向上累计频数分布,是将各组次数或比率,由变量值低的组向变量值高的组逐组累计。向上累计频数,表明某组上限以下各组单位数之和是多少;向上累计频率,表明某组上限以下各组单位数之和占总体单位比重的大小。
3.2.2向下累计频数或比率
向下累计频数分布,是将各组次数或比率,由变量值高的组向变量值低的组逐组累计。向下累计频数,表明某组下限以上的各组单位数之和是多少;向下累计频率,表明某组下限以上各组单位数之和占总体单位数比重的大小。
表6是累计频数分布的具体形式。
由表6得知,不及格的学生有4人,占全部学生的5.0%;70分以下的学生有18人,占全部学生的22.5%。80分以上的学生有40人,占全部学牛的50.0%;成绩优秀(90分以卜)的16人,占全部学生的20.0%。
累计频数分布的特点是:第一,首组的累计频数等于首组的频数;第二,最末一组的累计频数等于总体单位总量。
累计频率分布的特点是:第一,首组的累计频率就是首组的频率;第二,最末一组的累计频率等于1(或100%)。
3.3次数分布的主要类型
3.3.1正态分布
正态分布,又称钟形分布,其特征是“中间大、两头小”,即靠近中间的变量值分布的次数多,靠近两端的变量值分布的次数少,如图1所示。
社会经济现象中有很多都属于钟形分布。例如,人的身高及体重、学生的成绩、农作物产量、市场价格、零件公差等现象都属于正态分布。
3.3.2U形分布
U形分布的特征是靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头大、中间小”的分布特征。人口按年龄分组的死亡率、机器产品按使用时间分组的失效率,其分布图均呈这种图形(见图2)。
图2的曲线表明婴幼儿和老年人的死亡率较高,中青年的死亡率较低,或者是机器刚投入使用时失效率较高,随后急剧下降,保持相当一段时间后失效率又急剧增高的事实。这种分布曲线,其中间部分占据了整个曲线的绝大部分。
3.3.3J形分布
J形分布的特征是“一边小、一边大”,即大部分变量值集中在某一端分布。它有正J形曲线和反J形曲线两种。前者表明次数随变量值的增大而增多,如投资额与利润率之间的相互变动关系,如图3(a)所示;后者表明次数随变量值的增大而减少,如商品的销售量和其价格的增减变动关系,如图3(b)所示。
次数分布的类型主要取决于社会经济现象本身的性质。编制的次数分配数列和图形有时可能会因总体所处的客观条件不同而表现不同,但其形态仍应符合该现象的分布特征。
4正态分布
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
4.1参数含义
正态分布有两个参数,即期望(均数)μ和标准差σ,σ2为方差。
正态分布具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布记作N(μ,σ2)。
μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数、中位数、众数相同,均等于μ。
σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
4.2图形特征
集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。
关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
4.3标准正态度分布表
(吐槽一句:微积分貌似也学这张表了,全还给老师了。。)
表头的横向表示小数点后第二位,表头的纵向则为整数部分以及小数点后第一位;两者联合作为完整的x。例如:要查假设X=1.15,左边一列找到1.1的标准正态分布表,上面一行找到0.05,1.1和 0.05所对应的值为0.8749。