概率分布理论学习

0x00 前言


在统计学中,随机变量就是指一个随机的事件结果的取值X,比如一次抛硬币随机事件会出现两种情况,一个正面一个反面,或随机拔下一根头发的长度都是随机变量。

概率呢,就是指一个随机事件,在发生前都不能确定它的结果是什么,但是我们可以判断每一种结果发生的可能性大小,这个数值就是概率。概率分类就是通过结果的概率确定方法不同来分类的,可以分为古典概率条件概率。

古典概率的定义就是一次随机事件它的结果种类可知,且它每种结果的概率都相等,所以古典事件每种结果出现的概率可以表示为:P(A)=\frac{1}{N} 。条件概率即是事件A在事件B发生的前提下发生的概率,表示为:P(A|B)=\frac{P(A\cap  B)}{P(B)}

概率分布就是随机变量与其概率对应关系的函数,根据数据(随机变量)连续性的不同,可以分为离散型随机变量连续型随机变量,因此事件发生的结果对应的概率分布也就分为离散型概率分布连续型概率分布。

0x01 离散型概率分布


离散型概率分布的种类有很多,比较常见的有抛硬币的结果与对应概率形成的分布——伯努利分布(零一分布)、n重伯努利试验形成的二项分布、二项分布的极限分布(n->∞和p->0)泊松分布、二项分布不放回抽样版超几何分布、二项分布第一次成功版几何分布等。

1.伯努利分布(零一分布)

只有两种可能结果的随机试验对应的概率分布,如抛硬币试验。

它的概率质量函数是:

                            f_{X}(x)= p^x(1-p)^{1-x}=  \begin{cases}    p       & \quad \text{if } x=1 \text{,}\\    q       & \quad \text{if } x=0 \text{.}  \end{cases}

2.二项分布

重复n次相同的伯努利试验形成的结果与对应概率的分布,像n次抛硬币。

特点如下:

①每次试验只有两种结果,且两个结果只会出现一次。

②每次试验都是独立试验,每次的试验结果不受其他次试验结果的影响。

③每次试验前,如果成功的概率是p,那么失败的概率就是1-p。

那么进行n次伯努利试验,成功x次的概率(二项分布的概率质量函数)为:

                                P(X=x)=C_{n}^x p^xq^{n-x}

由公式可以看出二项分布的概率质量函数是由试验次数n和单次试验成功的概率p决定的。

二项分布的均值为:\mu =\sum\nolimits_{i=1}^n xP(x)=np

二项分布的方差为:\sigma ^2=\sum\nolimits_{i=1}^n(x-\mu)^2P(x)=npq

3.泊松分布

泊松分布考虑的是在连续时间或空间上发生随机事件次数的概率。简单点理解就是,基于过去某个连续的时间或者空间内发生的平均次数,预测该随机事件在未来同样长的时间或空间内发生n次的概率。

其概率质量函数由二项分布推导,假设某个时间内随机事件发生的次数为\lambda ,将这段时间n等分,那么随机事件发生的概率就是 \frac{\lambda}{n} 。如果n趋于无穷,那么概率就无限趋近于0,也就是说,在每个等分中随机事件想发生两次或两次以上是不可能的。根据以上假定条件,在这段时间内,该随机事件发生k次的概率服从二项分布,则

P(X=k)=C_{n}^{k}(\frac{\lambda}{n} )^k(1-\frac{\lambda}{n})^{n-k}=\frac{e^{-\lambda}\lambda^k}{k!}

泊松分布是关于历史平均次数的函数,随着历史平均次数\lambda的不同,泊松分布的形态也将改变。

泊松分布的均值和方差也可以通过二项分布的均值和方差进行推导,

均值:\mu_{poisson}=np=n\frac{\lambda}{n}=\lambda

方差:\sigma _{poisson}^2=npq=n\frac{\lambda}{n}(1-\frac{\lambda}{n})=\lambda

4.超几何分布

超几何分布是指在有限总体中进行无放回抽样(总体数量不断减少),每次试验开始前概率都会发生变化。

超几何分布的概率质量函数即为:f(k;n,m,N)=\frac{C_{m}^k C_{N-m}^{n-k}}{C_{N}^{n}}

以上公式表示在有限总体N中,符合要求的数值有m个,如果从总体中抽取n个,有k个是符合要求个案的概率。

C_{N-m}^{n-k}表示从剩余N-m个个案中抽取n-k个个案的方法数目。

实际应用中,只要数据总体的个案数目是样本容量的10倍以上,即N>10n,就可以用二项分布近似描述超几何分布

0x02 连续型随机变量

1.指数分布

指数分布描述的是两次随机事件发生的时间间隔的概率分布情况,这里的时间间隔指的是一次随机事件发生到下一次随机事件再发生的时间间隔。放在二维坐标内理解,纵轴表示概率密度,横轴代表时间间隔长度,因为时间间隔长度可以取任意连续的数值,所以指数分布是一种连续型的概率分布。常见应用如,某医院平均每10分钟出生一个婴儿,求接下来5分钟内有婴儿出生的概率。

指数分布与泊松分布互补。泊松分布能够根据过去单位时间内随机事件的平均发生次数,推断未来相同的单位时间内随机事件发生不同次数的概率。而指数分布的作用是根据随机事件发生一次的平均等待时间来推断某个时间内,随机事件发生的概率。

指数概率分布是连续型概率分布,所以概率函数应该是概率密度函数,公式定义为:

f(x)=  \begin{cases}    0       & \quad \text{if } x<0 \text{,}\\    \frac{1}{\mu}e^{-{\frac{1}{\mu }x }} =\lambda e^{-\lambda x}       & \quad \text{if } x\geq 0 \text{.}  \end{cases}

x表示给定时间的长度,\mu 表示随机事件发生一次的平均等待时间,\lambda \mu 的倒数,可解释为单位时间内随机事件发生的次数。

2.均匀分布

均匀概率分布是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,所有的连续型数据结果所对应的概率相等。

如果将离散数据结果换成连续型数据结果的取值区域,并且所有的连续型数据结果发生的概率相等,则离散型的古典概率分布就转换成为连续型的均匀概率分布。

3.正态分布

如果某个随机变量x服从正态分布,它的均值(算术平均值)和标准差是决定正态分布的两个参数。均值表示数据集合的集中趋势,而方差则表示数据集合的离散程度,正态分布的概率密度函数就由均值和方差两个自变量构成:f(x)=\frac{1}{\sigma\sqrt{2\pi} }e^{-\frac {(x-\mu)^2}{2\sigma^2}}

\mu表示均值;\sigma表示标准差。

正太分布的概率密度函数曲线呈钟型,因此也被称为钟形曲线(类似于寺庙里面的大钟,因此而得名)。通常所说的标准正态分布曲线就是指\mu=0,标准差\sigma^2=1的正态分布。

概率密度函数

如上图所示,红色曲线即为标准正态分布曲线。

正态分布中一些值得注意的地方:

1.概率密度函数关于平均值对称

2.平均值与它的众数以及中位数同一数值

3.函数曲线下68.3%的面积在平均数左右一个标准差的范围内

4.95.4%的数据会落在平均数左右两个标准差的范围内

5.99.7%的数据会落在平均数左右三个标准差的范围内,所以以上三条经验法则被形象地称为六西格玛法则

6.99.9%的数据会落在平均数左右四个标准差的范围内

7.函数曲线的拐点为离平均数一个标准差的位置

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • 基本概念 离散型随机变量 如果随机变量X的所有取值都可以逐个列举出来,则称X为离散型随机变量。相应的概率分布有二项...
    诺馨阅读 10,521评论 0 0
  • 基础概念 1.概率 概率直观上是指一个事件发生可能性大小的数量指标 概率的统计定义:在不变的条件下,重复进行nn次...
    凭栏听雨_t阅读 1,227评论 0 0
  • 第一章 随机事件及其概率 1.1随机事件 一、随机现象 并不总是出现相同的结果,结果并不只一个,哪个结果出现是未知...
    Black_Eye阅读 5,585评论 0 6
  • 一、基本概念 1. 随机变量 随机变量是试验结果的实值函数。举例来说,掷一枚质地均匀的骰子,可能出现的结果有1,2...
    Vicky_1ecd阅读 3,298评论 0 1
  • 对于我来说今天是个足以让我狂喜、大叫并且成长的日子,因为自己原创一篇诗歌即将要在一个文学平台发表,谁都不知道我心里...
    江梦南阅读 131评论 2 2