要点一:参数与统计量
参数(parameter)
- 描述总体(population)的概括性度量;
- 统计参数必须要在整体数据都可被观察的时候才能计算,通常由于数量过大而不便于统计计算;例如,一个完美的人口普查。
- 统计参数一般是固定的,但难以确定;
- 参数一般用希腊字母表示,例如总体均值μ、标准差σ
统计量(statistic)
- 描述样本(sample)的概括性度量;
- 一般根据统计量来估计总体参数,即为参数点估计;
- 样本统计量是可知的,但存在抽样误差;
- 统计量一般用英文字母表示,如样本均值x(头带一横线),样本标准差S
要点二 :标准误差
Standard Error,简称标准误;用来衡量从总体的抽样误差大小。
标准误指的是多个样本统计量(一般均数)的标准差,反映了每次抽样样本之间的差异。
如SE小,说明多次重复抽样得到的统计量差别不大,即抽样误差比较小。-
注意不要混淆标准误与标准差。
标准差是描述特定一组抽样数据的变异情况,即每次抽样都有一个标准差指标;
标准误是描述多组抽样情况(例如均值)间的差异情况,即多次抽样确定一个标准误。
-
计算方法
理论上,需要多次抽样,得到一组均值数据,计算其标准差即可。
但实际上,大多手边只有一组样本数据。因此前人总结根据一次抽样数据,计算标准误的公式如下:
标准误可能举例更好理解:想要估计某校男生身高,分别随机抽取3组男生(每组10人),每组计算的平均身高分别为170,180,165,则可认为抽样误差还是蛮大的。
要点三 :置信区间
1、定义概念
Confidence interval,CI 是一种用区间来估计参数值的方法,一般常见的是均值
对于一个样本中计算的95%置信区间,含义可以理解为“有95%的信心认为该区间包含了总体参数”。
如上,95%称为置信系数:越大,则所得的区间越宽,结果越可靠,但精确度很差;越小,则相反。
例如,估计一个人的身高在(1m, 2m)区间内,很可信,但很不精确。
因此并不是95%置信区间就比70%置信区间显著,但目前95%置信区间应该最常见到。
2、计算方法
下面结合一个小例子,简单介绍下两种计算方法。
- 目的:根据从某校随机抽取的20名学生(一个样本)身高,来估计该所学校的学生的平均身高。(均值参数)
2.1 bootstrap自助法
- 利用bootstrap法计算置信区间的过程,可以对置信区间这个概念更为清楚。
-
过程如下
(1)从这20人中进行20次有放回的抽样,计算这次抽样的均值。(有放回的抽样就是指抽完一次后还放回去,带来最直接的结果就是抽样的20次中,可能多次抽到同一个学生)
(2)按照步骤1,进行1000轮循环(也可是其它数,但越多越好),就得到1000个均值;
(3)以这1000个均数为原始数据,计算寻找第2.5%和第97.5%的分位数,就组成95%置信区间。
如果计算90%置信区间,则计算出对应第5%和第95%的分位数,就组成了90%置信区间。
自助法在有些情况下有着长足的优势,比如像估计样本中位数的置信区间或者是两样本的中位数之差,而正态分布理论没有简单公式理论套用;或者潜在分布未知、出现离群点、样本量过下,或者没有可供选择的参数方法。自助法都是生成置信区间利器。
2.2 根据标准误计算
- 根据中心极限定理,多次抽样的统计量分布符合正态分布;
- 而上面提到的标准差是指样本统计量的标准差;
-
根据这两点,可以得出一般常见的置信区间表示形式:参数估计值±边际误差,公式见下图
结合到上面例子中,参数估计值就是20人身高的均值
边际误差为目标置信系数对应的Z值与数据标准误的乘积。例如95%置信系数,就是对应于正态分布中心线下95%面积的两个x坐标。