作业思路
习题1:投掷N枚硬币,正面出现57次,尝试通过计算回答,假设N=100枚,要舍弃还是接受?
tips:投掷N枚硬币的数据近似于均值为N/2,S.D.为sqrt(N)/2的正态分布。
假设95%的置信区间是可接受的,若57被包含在该区间中,则接受,否则舍弃
μ=N/2=50,σ=sqrt(N)/2=5
代入方程 1.96 ≤ (X - μ)/ σ ≤ +1.96,解方程得95%的置信区间。
习题2:随机抽样30个GRE成绩,平均分数为1082分,标准差为108分,决定下列参数的95%和99%置信区间。
1)总体均值
2)总体标准差
刚开始看到题目,我也有点发蒙,均值和标准差不是已经知道了么,还要怎么求呢?google了一会,才明白已知的均值和标准差只是局部的,基于当前抽样的,不能等同于总体的。现在是要从局部推导总体,把总体均值和总体标准差都看做是变量,求它们的95%和99%的置信区间。
我们都知道,如果X服从正态分布,则有1.96 ≤ (X - μ)/ σ ≤ +1.96 的区间概率为95%。
- 求总体均值的置信区间
问题转化为,求出总体均值的均值,总体均值的标准差,代入上述方程,便可获得总体均值的95%置信区间。
设μμ为该总体均值的均值,σμ为总体均值的标准差,这两个值怎么求呢?
μμ用抽样得出的均值代替。作业中的抽样均值为1082.
根据总体平均数的估计中的公式,σμ的求法分为两种情况:
- 当总体标准差σ已知时,σμ=σ/sqrt(N)
- 当总体标准差σ未知时,无偏估计:σμ=S/sqrt(N),有偏估计:σμ=S/sqrt(N-1)。S为样本的标准差。
作业中的总体标准差未知,采用有偏估计σμ=S/sqrt(N-1)=108/sqrt(30-1)
代入前面的方程
-1.96 ≤ (X - 1082)/ (108/sqrt(30-1) )≤ 1.96 ,解方程得95%置信区间
同理,求总体均值99%的置信区间,解方程
2.576 ≤ (X - 1082)/ (108/sqrt(30-1) )≤ 2.576
- 求总体标准差的置信区间
问题转化为,求出总体标准差的均值,总体标准差的标准差,代入上述方程
设μσ为总体标准差的均值,σσ为总体标准差的标准差,这两个值怎么求呢?
根据 标准差与方差的区间估计 ,当样本容量n>30时,样本标准差的分布渐近正态分布,
由该文中的公式可知:
μσ=抽样的标准差。作业中的抽样标准差为108。
σσ=S/sqrt(2N),S为抽样标准差即108.
代入得方程
-1.96 ≤ (X - 108)/ (108/sqrt(2*30) )≤ 1.96 ,解方程得95%的置信区间置信区间
-2.576 ≤ (X - 108)/ (108/sqrt(2*30) )≤ 1.96,解方程得99%的置信区间置信区间为
还有一种方法是求方差的置信区间,再开平方,用的是卡方分布。具体见 标准差与方差的区间估计 。
1.以上解法,是基于一定的前提:若分布X服从正态分布,则其均值和标准差也服从正态分布。否则应该是不能这样做的。
2.根据标准差与方差的区间估计,在总体方差未知时,样本平均数的分布为t分布,所以应该要查t值表。
但我不知道如果已知总体分布是正态分布,是不是可以用正态表的值比如1.96?
3.两个参数为什么可以用这样的公式求得,我也不清楚,暂且理解为用一系列数学公式推导出来的,统计学还得继续看……
写完才看到石头同学的作业,推导专业多了。看了小密圈里其他同学的作业,我的总体标准差的区间和大家的出入比较大,同学们是先通过卡方分布求总体方差,再求标准差。但我看到标准差与方差的区间估计中的 例1也是这样求的,是做法的不同,还是我的理解是错误的?
用ipython 求方程的解
import sympy #导入sympy库,用于数学计算
x = sympy.Symbol('x') #将x转换成符号,才能用在后面的方程中
sympy.solve(x * 2 - 4, x) #以一个简单线性方程为例,第一个参数为要解的方程,要求右端等于0,第二个参数为要解的未知数。解为2。
[2]
习题1:求解方程1.96 ≤ (X - μ)/ σ ≤ +1.96,μ=N/2=50,σ=sqrt(N)/2=5
sympy.solve((x - 50)/5+1.96,x)
[40.2000000000000]
sympy.solve((x - 50)/5-1.96,x)
[59.8000000000000]
置信区间为[40.2,59.80],所以57是可以接受的
习题2:求总体均值的95%置信区间
sympy.solve((x - 1082)/ (108/(30-1)**0.5)+1.96,x) #求总体均值95%的置信区间
[1042.69201081468]
sympy.solve((x - 1082)/ (108/(30-1)**0.5)-1.96,x)
[1121.30798918532]
置信区间为[1042.69,1121.3]
习题2:求总体均值的99%置信区间
sympy.solve((x - 1082)/ (108/(30-1)**0.5)+2.576,x)
[1030.33807135644]
sympy.solve((x - 1082)/ (108/(30-1)**0.5)-2.576,x)
[1133.66192864356]
置信区间为[1030.33,1133.66]
习题2:求总体标准差的95%置信区间
sympy.solve((x - 108)/ (108/(2*30)**0.5)+1.96,x)
[80.6722295091604]
sympy.solve((x - 108)/ (108/(2*30)**0.5)-1.96,x)
[135.327770490839]
置信区间为[80.67,135.32]
习题2:求总体标准差的99%置信区间
sympy.solve((x - 108)/ (108/(2*30)**0.5)+2.576,x)
[72.0835016406109]
sympy.solve((x - 108)/ (108/(2*30)**0.5)-2.576,x)
[143.916498359389]
置信区间为 [72.08,143.91]