第九章 置信区间估计--给估计留点余地
我不太有把握地说,这里的“置信”是不是一个置信诡计。。。,就是说,我们从中抽取样本的总体,其比重会正好落在这些区间内吗?--1934年奈曼首次提出置信区间后鲍利教授的评论
前言:
置信区间是用一个区间来估计参数,如95%置信区间为(0.72,0.96),意思是有95%的信心认为(0.72,0.96)这个区间包含了总体参数。
9.1 置信区间的理论与实际含义
理论上,95%置信区间意思是:如果从一个总体重复多次抽取不同的样本,每一个样本都有一个95%的置信区间,总体参数是固定的。也即是在100次抽样样本中,期望有95个区间包含了总体参数。
实际上,有95%的信心认为该区间包含了总体参数。
9.2 置信区间与P值的关系
1.置信系数
a.置信区间的前缀数字为置信系数,一般我们习惯用95%,并非唯一,根据研究目的,也可以为90%等
b.置信系数越大,所得的区间越宽;置信系数越小,区间越窄
c.区间宽窄反映了对参数估计的精确度,越窄越精确,越宽,说明估计不精确,但更为可靠。
2.做统计学结论
a.
例:对于“参数=0”这样一个无效假设,p<0.05,说明在无效假设成立的前提下,有5%的可能性是偶然发生这样的事件,即具有统计学意义。那么计算该参数估计值的95%置信区间一定不包含0.p>0.05,则证明95%置信区间包含0.所以,他俩可以做出同样的统计学结论
b.
置信区间给的信息比p值更多。p值只是告诉我们一种概率,即当无效假设成立时,出现当前结果或更极端结果的概率。置信区间可提示计算的结果与无效假设的参数偏离有多远,这句话可用一个例子来说明:无效假设为两组收缩压的差值为0,最后计算95%置信区间为(0.1,0.15),两点,一是两组差异有统计学意义,因为区间无0,二是两组总体差值并不大,因为我们有95%的信心认为两组差值在0.1-0.15之间
c.
样本量越大,区间越窄,精确度越高,P值越小,因为样本量大,抽样误差越小。
9.3利用标准误计算置信区间
一般置信区间表示形式为:参数估计值+/-边际误差
边际误差一般为,对应一定正态分位数的Z值标准误(表示抽样误差)
常用95%置信区间=参数估计值+/-1.96标准误
标准误与标准差的区别
标准误是样本统计量的标准差,反映每次抽样样本之间的差异。标准误越小,说明多次重复抽样得到的统计量量差别不大,提示抽样误差较小。
1.概念不一样:标准差是standard deviation,是一种对均数的偏离。标准误是standard error,是一种误差。
2.标准差是一个描述性指标,描述原始数据的波动情况。标准误是跟统计推断有关的指标。描述性指标和统计推断指标不是一个层次上的概念。
3.针对计算的对象不同。标准差是根据某次抽样的原始数据计算的;标准误是根据多次抽样的样本统计量(如均值、率等)。理论上,标准差只需要一个样本,标准误需要多个样本。
实际中,标准误的计算方法;
s表示样本标准差,n为样本例数。
对于率的置信区间
9.4 利用Boostrap法估计置信区间
前边提到均数、率置信区间的计算,都服从一定的分布(t分布、正态分布),因此在标准误前乘相应的t分值或Z分值。但有一些参数不知道其分布,则用Bootstrap法。
Bootstrap法是利用重复抽样的方法对参数进行估计,根据第2.5百分位数和第97.5百分位数,百分位数法。