二项分布,泊松分布,正态分布
二项分布
假设玩石头剪刀布,完全公平的情况下每局获胜的概率为1/3,求获胜0~3局的概率分布
求获胜局数>=2的概率 (注意等号,计算时取2-1)
data binom;
do i = 0 to 3 by 1;
prob = PDF('BINOMIAL',i, 1/3, 3);
prob_c=1-CDF('BINOMIAL',2-1, 1/3, 3);
output binom;
end;
泊松分布
假设某市交通事故平均每周死亡5人,下周事故死亡人数为0~10人的概率分别为?
data death;
do i = 0 to 10 by 1;
prob = PDF('POISSON',i, 5);
output death;
end;
- 模拟100周,1000周数据
data death;
do i = 0 to 100 by 1;
d_count=ranpoi(123123,5); *ranpoi(seed,mean),按泊松分布生成随机数,seed随便填串数字,mean=mean;
output death;
end;
proc gchart data=death;
vbar d_count;
run;
正态分布
假设养鸡场鸡蛋重量为Xg, mean=50,std=10. 质检员每次取10个鸡蛋计算平均重量,他抽样结果如何分布?样品鸡蛋平均重量小于45g的概率是多少? 如果每次取50个鸡蛋呢? 模拟1000次抽样结果分布.
data sim_normal;
do sim_i=1 to 1000;
do i=1 to 50;
x=rand('NORMAL',50,10); *x为每个鸡蛋重量;
output ;
end;
end;
run;
proc means data=sim_normal noprint;
var x;
by sim_i; *计算1000个鸡蛋组,每个组鸡蛋重量的平均值;
output out=summary mean=eggs_mean; *将1000个平均值保存在summary数据集里,平均值变量名为eggs_mean;
run;
proc univariate data=summary;
var eggs_mean;
histogram eggs_mean/normal; *画图,正态分布;
run;
当抽样鸡蛋数为10个时,大约有5%的可能鸡蛋平均重量会小于45g,而当抽样鸡蛋数为50个时,模拟数据中没有一组鸡蛋平均重量小于45g.并且50个鸡蛋的平均重量的分布更集中在50g左右. 这说明抽样时样本数量越多,单次抽样的样本均值越有可能接近总体均值(真实均值)