week 10
常见概率分布
random.random返回的值不是真正的随机,在数学上被称作伪随机数,但是在实际运用中,和真正的随机数没有本质上的区别,可以忽略
独立事件
大数定律/伯努利定理:在独立可重复的实验中,
如果每次实验中出现某种特定结果的实际概率为p(例如,每次抛硬币正面向上的实际概率为
0.5),那么实验次数接近无穷大时,出现这种结果的比例与实际概率p之间的差收敛于0
大数定律并不意味着如果预期行为出现偏差,那么这些偏差会在未来被相反
的偏差“扯平”
方差
方差描述了集合中接近于均值的数值的比
例。如果很多值都非常接近均值,方差就会很小。如果很多值都非常远离均值,方差就会很大。
如果所有值都一样,方差就是0
标准差
方差描述了集合中接近于均值的数值的比
例。如果很多值都非常接近均值,方差就会很小。如果很多值都非常远离均值,方差就会很大。
如果所有值都一样,方差就是0
使用“标准差”这一概念考虑计算结果可信度和所需样本数量之间的关系
random.seed(0)保证了random.random使用的伪随机数生成器在函数每次运行
时都生成同样的伪随机数序列
变异系数
标准差除以均值所得的值称为变异系数
与标准差相比,变异系数的主要优点是,它可以用来比较具有不同均值的数据集合的离散程
度
一般来说,变异系数的值如果小于1,就可以认为方差很小。
概率分布
- 离散分布
- 连续分布
- 正态分布
random.gauss(mu, sigma)
- 二项分布
- 指数分布
- 几何分布
是指数分布的离散模拟
假设你有一辆很旧的汽车,当你转动钥匙(或按下启动按钮)时,它只有50%的概率能够启动。几何分布就可以用来描述在成功之前尝试启动汽车的次数 - 本福德分布
- 对于一个十进制数的集合,如果第一位数字是d的概率符合P(d) = log10(1 + 1/d),就称它满足本福德定律
散列与碰撞
中心极限定理和理解
- 足够大的样本
-
样本均值
服从正态分布 - 样本的均值可以用来估计总体的样本均值
- 样本的方差可以用来估计总体的样本方差
中心极限定理的应用
即使总体的内在分布不是正态分布,我们也可以根据中心极限定理计算出置信水平和置信区间
置信区间
如果从一个庞大的总体中抽取了一个(任意大小的)独立样本,那么总体均值的最好估计
值就是样本的均值。对于某个规定的置信水平,置信区间宽度的估计要更复杂一些,它部分依赖
于样本大小。
样本多大才足够呢?这取决于总体方差。方差越大,需要的样本数就越多。
当总体分布近似于正态分布时, 30~40个样本已经足够大了。对于更小的样本,最好使用t分布计算置信区间。 t分布与正态分布很相似,但具有肥尾特点,所以算出来的置信区间要更宽一些。