一、中心极限定理
1、定义
(1)样本的平均值约等于总体的平均值。
(2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
(3)样本大小必须达到30,中心极限定理才能保证成立。
2、结论:
(1)用样本来估计总体
任何一个样本的平均值将会约等于其所在总体的平均值。
(2)样本平均值呈正态分布
取样次数越多,结果就越接近正态分布;而且样本大小越大,分布就越接近正态分布。
3、作用
(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。
(2)根据总体的平均值和标准差,判断某个样本是否属于总体。
4、示例
假设有一个群体,如我们之前提到的清华毕业的人,我们对这类人群的收入感兴趣。怎么知道这群人的收入呢?我会做这样4步:
(1)随机抽取1个样本,求该样本的平均值。例如我们抽取了100名毕业于清华的人,然后对这些人的收入求平均值。
该样里的100名清华的人,这里的100就是该样本的大小。
有一个经验是,样本大小必须达到30,中心极限定理才能保证成立。
(2)我将第1步样本抽取的工作重复再三,不断地从毕业的人中随机抽取100个人,例如我抽取了5个样本,并计算出每个样本的平均值,那么5个样本,就会有5个平均值。
这里的5个样本,就是指样本数量是5。
(3)根据中心极限定理,这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点,有一些会稍低一点,只有极少数的样本平均值大大高于或低于群体平均值。
(4)中心极限定理告诉我们,不论所研究的群体是怎样分布的,这些样本平均值会在总体平均值周围呈现一个正态分布。
二、大数定理
是一种描述当试验次数很大时所呈现的概率性质的定律。在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。
通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。
三、两者之间的区别
大数定律是说,n只要越来越大,我把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值u,但是样本均值的分布是怎样的我们不知道。
中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,sigma^2/n为方差。
综上所述,这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,他越来越趋近于正态分布。并且这个正态分布的方差越来越小。
直观上来讲,想到大数定律的时候,你脑海里浮现的应该是一个样本,而想到中心极限定理的时候脑海里应该浮现出很多个样本。