样本均值、比例等于总体均值、比例的点估计量,这是无偏样本最可能的情况。但是这一情况仍有可能是错误的,因为毕竟是一个样本的结果。
置信区间:总体统计量在某一区间内的可信程度,这一区间成为置信区间。
如何从样本推导出总体统计量的置信区间
1.如何从样本推算总体均值的置信区间
当样本数量很大时,均值的抽样分布符合正态分布,均值抽样分布的期望为总体的均值。均值的抽样分布中:事件X为一个个样本均值。
标准正态分布常用置信区间与上下限的关系如下:
置信水平 | 标准正态分布的置信区间 |
---|---|
90% | [-1.64,1.64] |
95% | [-1.96,1.96] |
99% | [-2.58,2.58] |
假设选择的置信水平95%,则:
在[-1.96,1.96]之间时置信水平为95% ,即(X-u)/sigma 95%置信水平的置信区间为[-1.96,1.96]之间。
是均值抽样分布的期望:
=E((X1+X2+ Xn)/n) = E(Xi)
Xi为总体的独立观测值,E(Xi)是每个Xi的期望,为总体的均值。
所以,抽样分布的即是待求总体的均值
因为 在区间[-1.96,1.96] (95%置信水平下)
所以总体均值在这一范围内可能性为95%
X为一个个的样本均值。
为均值抽样分布的标准差 ,其中是总体的方差。
2.如何从样本推算总体成功比例的置信区间
样本成功比例为Ps = Xs/n ~N(p, pq/n) (n>30),
其中Xs~B(n,p), p为总体成功的概率。
样本成功比例抽样分布的期望为p,即总体的成功比例
样本成功比例抽样分布中事件X为一个个比例样本Ps
95%置信水平的置信区间为[-1.96,1.96]之间。
所以总体成功比例 在这一范围内可能性为95%。,可以用某一次的Ps ,Qs = 1-Ps近似代替p和q。
总的来说就是求抽样分布的均值(期望)的范围,利用某一次抽样的均值或比例,以及抽样分布的方差来计算其范围。
当样本很小,总体方差未知时,需要通过样本估计总体方差,而小样本估计方差会偏小很多,因此不能近似为正态分布。
此时X均值的分布符合t分布,自由度V = n-1,n越小,v越小,t分布的形态越扁平。用样本方差估计总体方差。
t分布的标准分为:
通过置信区间,查表的标准分T的区间,X的均值为样本均值,s为样本方差(估计总体的方差),n样本大小已知,可以推算出总体均值u的范围。