1. 什么是参数估计
参数估计是在样本统计量概率分布的基础上,利用样本的信息推断所关心的总体参数的过程。
① 基于样本统计量的概率分布:如前所述,样本统计量是一个随机变量,有其自身的概率分布、期望、方差等。在分析一个样本集时,需要基于此统计学知识;
② 利用样本的信息:样本是我们唯一有的数据,一切的统计基于样本数据;
③ 推断所关心的总体参数是目的。比如,利用样本的均值推断总体的均值,利用样本的方差推断总体的方差。
PS1:利用样本的均值作为总体均值的估计,是直观且不需要解释的。样本统计量(此处指均值)的概率分布,是为这个估计提供置信度等信息的。
PS2:利用样本均值去估计总体均值时,总体均值是一个待被估计的总体参数,可以用表示。样本均值叫做估计量,用表示,是一个统计量;实际采集了一个样本算出了其平均值,这叫一个估计值
2. 两种基本的估计方法
2.1 点估计
点估计指基于一个样本算出的估计量的一个具体取值,直接作为总体参数的估计值 的估计方式。这个话说的很车轱辘,举个栗子,当我要估计中国人的平均身高时,我采集了一个样本,其包含了1W个人的身高状况,然后我算出来均值,并用这个均值作为全体中国人平均身高的估计值。就是这么简单。
点估计的优点是很直观易理解,给小学生讲一下应该也能听懂。
不好懂的是点估计的缺点:点估计无法给出估计的可靠性。继续举栗子,当我们取了1W个平均身高并算出平均值是1.68时,我们并不能说,全国人民的平均身高100%就是1.68。事实上,平均身高可能是1.86,就算这样我们也仍然有可能恰好采到了一个平均身高只有1.68的样本,只不过这个概率比较小而已。再说得反直觉一点,全国人民的平均身高恰恰好好就是1.68的可能性其实是非常低的,但落在[1.67,1.69]的可能性就比较大,至少比落在[1.80, +]的可能性是大多了。问题就在于,点估计无法定量的给出这些区间以及对应的可能性大小。所以才有了更专业一点的区间估计。
2.2 区间估计
区间估计是在点估计的基础上,给出总体参数估计的一个估计区间,并给出相应的置信度。区间估计要基于样本统计量的分布规律上,区间通常是样本统计量加减估计误差。以总体均值的区间估计为例阐明其过程和原理。
2.2.1 先正着说
在4.6中我们知道,假设总体均值为,总体方差为,样本量为n,在大样本的情况下,样本均值是遵从期望为,方差为的正态分布。那我们取一个样本算出一个具体的平均值,就相当于在一个服从上述分布的随机变量上面采了一个样。
那么根据概率论与数理统计的基础知识,我们知道,x落在μ正负一个标准差(即)的概率是0.6827,落在正负两个标准差的概率是0.9545,正负三个标准差的概率是0.9973,还有,落在正负1.65个标准差内的概率是90%,正负1.96个标准差内的概率是95%,正负2.58个标准差内的概率是99%。
2.2.2 再反着说
事实上,总体的均值是不知道的,知道就不用估计了。
但由于正态分布的对称性,上述描述就可以很有意思的转换为:总体均值落在样本均值正负一个样本均值标准差范围内()的概率是0.6827,两个正负标准差范围内的概率是0.9545,等等等等~
还有一个小问题就是,总体的方差很多时候也是未知的,因此上述描述是到位了,但具体是多少啊,不知道~,因此要想办法估计一下是多少,很简单,就用样本的方差估一下,即
。
和都是可以基于样本算出来的具体值,现在可以描述结论了:
总体均值落在区间的概率是0.6827。神马?你想要的一个置信度为95%的区间,好的,是。
2.3 总结
① 点估计是简单易理解的,但其只能估计一个值,且无法给出估计的可靠度
② 区间估计可以给出一个区间及对应的置信度,显然区间越大置信度就会越大。我估计接下来一年北京会下雨,置信度100%。
③ 区间估计再怎么厉害,也是要以点估计为基础的,就说上面总体均值的区间估计,使用样本方差估计总体方差的方式还是点估计。