一、基本概念
随机试验,可以在相同条件下重复进行,每次试验的结果不止一个,事先知道所有可能的结果但不确定是哪一个的试验。
随机变量,随机试验可能的结果形成了样本空间S,随机事件就是样本空间S的某个子集,而样本空间S中每个元素e都会对应一个实数,这种映射关系可以定义为一个函数f(e),那么这个函数就称为随机变量。
随机变量是随机试验样本空间上的单值实数函数,分为离散型随机变量 与 连续型随机变量。
离散型随机变量:取值可以一一列举,有限个或者可列举的无限多个。
连续型随机变量:取值不能一一列举,可能取值连续的充满了某一区间。
连续型随机变量,连续型随机变量的取值要么包括整个实数集(−∞,+∞),要么在一个区间内连续,总之这类随机变量的可能取值要比离散型随机变量的取值多得多,它们的个数是无限不可数的。
古典概率,古典概率通常又叫事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。
条件概率,条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为:P(A|B),读作“A在B发生的条件下发生的概率”。若只有两个事件A,B,那么,
期望值,又称均值,由随机变量X的概率分布确定。
对于一个离散型随机变量X,其分布律为P{ X= } = ,k=1,2,…,则其期望为:
例子:某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个。
则此城市中任一个家庭中孩子的数目是一个随机变量,记为X。它可取值0,1,2,3。
其中,X取0的概率为0.01,取1的概率为0.9,取2的概率为0.06,取3的概率为0.03。
则,它的数学期望
对于一个连续型随机变量X,其概率密度函数为f(x),则其期望为:
二、离散变量概率分布
伯努利分布,又称0-1分布,如果随机变量X只取0和1两个值,并且相应的概率为:
则称随机变量X服从参数为p的伯努利分布,若令q=1一p,则X的概率函数可写
为:
二项分布,假设某个试验是伯努利试验,其成功概率用p表示,那么失败的概率为q=1-p。进行n次这样的试验,成功了x次,则失败次数为n-x,发生这种情况的概率可用下面公式来计算:
泊松分布,解决的是在特定时间里发生n个事件的机率,
观察事物平均发生m次的条件下,实际发生x次的概率P(x)可用下式表示:
三、连续变量概率分布
均匀分布,均匀分布的特征是数据在一个区间中均匀地分布,最小值为 a,最大值为 b。概率密度函数是:
分布函数:
正态分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 ),服从正态分布的随机变量的概率规律为取 μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
概率密度函数:
当 ,=1 ,正态分布就成为标准正态分布
正态分布中一些值得注意的量:
- 密度函数关于平均值对称
- 平均值与它的众数(statistical mode)以及中位数(median)同一数值。
- 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
- 95.449974%的面积在平均数左右两个标准差2的范围内。
- 99.730020%的面积在平均数左右三个标准差3的范围内。
- 99.993666%的面积在平均数左右四个标准差4的范围内。
- 函数曲线的拐点(inflection point)为离平均数一个标准差距离的位置。
指数分布,描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。例如灯泡的使用寿命服从指数分布,无论他已经使用多长一段时间,假设为s,只要还没有损坏,它能再使用一段时间t 的概率与一件新产品使用时间t 的概率一样
分布律公式:
伽玛分布,
指数分布解决的问题是“要等到一个随机事件发生,需要经历多久时间”
伽玛分布解决的问题是“要等到n个随机事件都发生,需要经历多久时间”
假设随机变量X为 等到第α件事发生所需之等候时间,
密度函数为:
贝塔分布,是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数。
1.先验概率就是事情尚未发生前,我们对该事发生概率的估计。利用过去历史资料计算得到的先验概率,称为客观先验概率; 当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。例如抛一枚硬币头向上的概率为0.5,这就是主观先验概率。
2.后验概率是指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。
3.先验概率和后验概率的区别:先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料。另外一种表述:先验概率是在缺乏某个事实的情况下描述一个变量;而后验概率是在考虑了一个事实之后的条件概率。
4.共轭分布(conjugacy):后验概率分布函数与先验概率分布函数具有相同形式。
威布尔分布,Weibull Distribution是连续性的概率分布,其概率密度为
卡方分布:
F分布,