一、基本概念
1. 随机变量:根据取值范围,可以分为离散型随机变量和连续型随机变量。举例来说,掷一枚质地均匀的骰子,可能出现的结果有1,2,3,4,5,6。那么可以定义随机变量X=出现的点数。或者,调查一个地区居民的年收入,可能出现的结果是任意正数。那么可以定义随机变量X=随机抽取一个人的年收入。
2.古典概率:设一个试验有N个等可能性的结果,而事件A包含了M个结果,那么事件E的概率,记为P(A)定义为:p(A) =M/N;因为每个等可能基本事件概率为1/N,因此M个自然就是M/N。
3.条件概率:条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。
4.离散变量:如果随机变量的取值是有限的或可数无限的,称为离散型随机变量。有限指取值可以列举出来,如掷骰子的结果只有6种。无限但可数是指取值跟自然数是一一对应的,如一个地区的人口数,理论上总是能够数得尽。
5.连续变量:如果随机变量的取值在是无穷的,且不能无遗漏的排列出来,称为连续型随机变量。如灯泡的寿命,从0到正无穷(理论上)都有可能。
6.期望值:随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。
二、离散变量概率分布
1. 伯努利分布(0-1分布):0-1分布又名两点分布,或叫伯努利分布。伯努利分布未必一定是 0-1 分布,也可能是 a-b 分布,只需满足相互独立、只取两个值的随机变量通常称为伯努利(Bernoulli)随机变量。
2. 二项分布(n 重伯努利分布)
二项分布有以下性质:
1)一次试验有且仅有两种可能结果:“成功”和“失败”,两个结果是随机决定且互斥的。
2)每次试验中,成功的概率是P,失败的概率是1-P,并且成功和失败的概率是常数或近似于不变。
3)各次试验之间相互独立,每次试验结果不受其它各次试验结果的影响。
二项分布的均值和方差分别为np和npq。
二项分布的另一个性质是其分布形状的变化规律。从二项分布概率质量函数P(x)可知,概率分布只与试验次数n和成功概率p有关,其分布形状的变化规律为:
1)"成功"概率p越接近0.5(也即"成功"概率与"失败"概率越接近),二项分布将越对称。保持二项分布试验的次数n不变,随着成功概率p越接近0.5,二项分布逐渐对称,且近似于均值为np、方差为npq的正态分布。
2)对于任意"成功"概率p,无论其距离0.5有多远,随着试验次数n的增加,二项分布与均值为np、方差为npq的正态分布越来越接近。
3. 泊松分布
泊松概率分布是考虑在连续时间和空间单位上发生的随机事件的概率。
通俗解释:基于过去的经验,预测该随机事件在新的同样长的时间或同样大的空间中发生N次的概率。
泊松分布经常用于商业中的库存控制。诸如,一家海鲜餐厅过去一个月顾客平均订购7只龙虾,如果该餐厅希望今后能有95%的把握满足顾客需求,需要储存龙虾的数量。
三、连续变量概率分布
1. 均匀分布:均匀概率分布是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,所有的连续型数据结果所对应的概率相等。
2. 正态分布:正态概率分布是所有概率分布中最重要的形式,它能够表示被测事物处于稳定状态的原因。正态分布曲线酷似古代的大钟,曲线被穿过均值的垂线分成完全相等的两半。曲线的总面积为1,代表100%的概率,其中50%位于均值垂线的左侧,另外50%位于均值垂线的右侧。
特点:
(1)集中性:正态曲线的高峰位于正中央,即均数所在的位置。
(2)对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
(3)均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
采用正态分布在很多应用中都是一个明智的选择。当我们缺乏关于某个数据上分布的先验知识而不知道该怎么选择形式时,正态分布时默认的比较好的分布。而我们现实中的很多分布都是接近正态分布的,在具有相同方差的所有可能的概率分布中,正态分布在实数上具有很大的不确定性,可以认为正态分布是对模型加入的先验知识量最少的分布。
3. 指数分布:指数分布描述的事两次随机事件发生的时间间隔的概率分布情况,这里的时间间隔指的是一次随机事件发生到下一次随机事件再发生的时间间隔。
4. 卡方分布:概率统计里常用的一种概率分布,也是统计推断里应用最广泛的概率分布之一,在假设检验与置信区间的计算中经常能见到卡方分布的身影。卡方分布能用于从样本方差到总体方差的推断性分析,甚至还能用于非参数检验,被称为卡方检验
5.beta分布:贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。
6.泊松分布:泊松概率分布是在连续时间或空间单位上发生随机事件次数的概率。通俗解释就是基于过去某个随机事件在某段时间或某个空间内发生的平均次数,预测该随机事件在未来同样长的时间或同样大的空间内发生n次的概率。经常被用于销售较低的商品库存控制,特别是价格昂贵、需求量不大的商品.