(1)概率统计

一、数据分布

    离散型随机变量分布常见的有伯努利分布(Bernoulli Distribution)、二项分布(Binomial Distribution)、泊松分布(Poisson Distribution)等,而常见的连续型随机变量分布包括均匀分布(Uniform Distribution)、指数分布(Exponential Distribution)、正态分布等。

    离散型数据:数据只能取特定的值,比如,当你掷一个骰子的时候,可能的结果只有 1,2,3,4,5,6 而不会是 1.5 或者 2.45。

    连续型数据:数据可以在给定的范围内取任何值,给定的范围可以是有限的或无限的,比如一个女孩的体重或者身高,或者道路的长度。一个女孩的体重可以是 54 kgs,54.5 kgs,或 54.5436kgs。

(1)离散型概率分布

    1、伯努利分布(0-1分布)

        事件A在某次试验中发生的概率稳定计为p,但A要么发生要么不发生,随机变量X,单次试验中A发生记为1,没有发生记为0,则P(X=1)=p,P(X=0)=1−p

    2、二项分布P(X=r)=\frac{e^\lambda *\lambda ^r  }{r!} ;e=2.71828;

        n重伯努利试验,事件A在某次试验中发生的概率稳定计为p,但A要么发生要么不发生,随机变量X表示在n次试验后,事件A发生的次数,显然,X的取值为{0,1,2,…,n}。P(X=r)= C_{n}^r*p^r*q^(n-r);C_{n}^r = \frac{n!}{r!(n-r)!}  ;E(X)=np;Var(X)=npq;

    3、泊松分布

        但日常生活中,我们也会遇到大量这样的事情:在某个时间段内发生频率相对稳定,但在时间段内随时都有可能发生的事情。例如,车辆通过十字路口,医院有婴儿出生,超市的鲜奶被购买,机器运行时发生故障。这些事情一般用“单位时间内事件发生的次数”来描述,机器运行一个月发生2次故障,超市一天出售50袋鲜奶,医院每小时出生3名婴儿,15分钟内有40辆车通过某路口。每当有洪涝灾害时,新闻报道中经常会出现“五十年一遇”,“百年一遇”等字眼,也是对这种现象的描述。它们的特点就是:我们可以预估这些事件在某段连续时间内的总数,但是没法知道具体的发生时间。

        泊松分布就是用来描述这种某段连续的时间内某独立事情发生次数的概率分布

        p(X=r)= \frac{e^-\lambda *\lambda ^r  }{r!} ;\lambda 表示时间平均发生的次数;r表示想要预测事件的发生的次数;E(X)=\lambda ;Var(X)=\lambda

        若X和Y相互独立,那么P(X+Y)=P(X)+P(Y);E(X+Y)=E(X)+E(Y);

        特定情况下,泊松分布可以用来代替二项分布。例如:如果需要计算二项分布,其中n=3000,那么就需要计算n!;计算量会比较大。当n很大且p很小时,np和npq近似相等。此时就可以用泊松分布近似二项分布。

    4、几何分布

        在n重伯努利试验,试验k次才得到第一次成功的机率。也就是前k-1次皆失败,第k次成功的概率。p(k)=P(X=K) = p*(1-p)^(k-1) ;P(X>k) = q^k;p(X<=k) = 1-q^k ;E(X)=\frac{1}{p} ;

Var(X)=\frac{q}{p^2 } .几何分布跟正态分布图像差异很大,不能被近似。

(2)连续型概率分布

       曲线下面积为1

      1、均匀分布

        假设我们在从 a 到 b 的一段线段上等距地选择一个区间的概率是相等的,那么概率在整个区间 [a,b] 上是均匀分布的,概率密度函数也不会随着变量的更改而更改。

       2、正态分布

            几乎与自然相关的大多是近似的正态分布,比如人或动物的身高分布,体重分布,成年人对血压,人群鞋码。在天文、生态、医学等等。我们周围的大部分变量都呈置信度为 x% 的正态分布(x<100)。所以说,生活中经常出现的各种变量,差不多都能用高斯分布描述。

            几乎与社会相关的大多是偏态分布,比如一定时间一定空间里的人、车的流量;人口增长与消亡的分布。

            正态分布也被称为高斯分布。以天才卡尔·弗里德里希·高斯(Carl Friedrich Gauss)的名字命名。简单的预测模型一般都是最常用的模型,因为它们易于解释,也易于理解。而正态分布因为简单而流行。正态分布是最常用的概率分布。

            如果对样本对概率分布作图,得到一条倒钟形曲线,样本的平均值、众数以及中位数是相等的,那么该变量就是正态分布的。如图:

正态分布曲线

               正态分布依赖数据集中两个参数,分别是:平均值和标准差。均值表现于图像对峰值处,而标准差表现为3\sigma 准则。

                即:约有 68.2% 的点落在 ±1 个标准差的范围内;约有 95.5% 的点落在 ±2 个标准差的范围内;约有 99.7% 的点落在 ±3 个标准差的范围内。利用这个标准,就可以在根据这个数据集作出决策时,有多大对置信度。

            如果 A 和 B 是两个服从正态分布的变量,那么:AxB 服从正态分布;A+B 服从正态分布。

            如果样本满足某个未知的分布,那么通过一系列操作,它总是能变成正态分布。相反,标准正态分布的叠加与转换,也一定能变化为任意未知分布。从标准正态转换到未知分布,就是很多机器学习模型希望做到的,不论是视觉中的 VAE 或 GAN,还是其它领域的模型。但对于传统统计学,我们更希望将特征的分布转换成正态分布,因为正态分布简单又好算。

            (1)归一化可以将数据从未知分布转化为正太分布

            (2)scipy 的 box-cox 变换

            (3)sklearn 的 yeo-johnson 变换。

         由于正态分布的情况很多,为方便得到概率,一般需要把正态分布转换为标准正态分布。具体操作如下:

         若一个正态分布均值等于71,方差为20.25,标准差为;4.5那么\frac{X-\mu }{\sigma } \frac{X-71}{4.5} 属于标准正态分布;\frac{X-\mu }{\sigma } 又叫做标准分。可通过标准分的数值,在标准概率曲线的表上查找相应概率。概率表上的数值为P(Z<z)即概率曲线图上该数值所在横坐标点左侧部分的曲线下面积。要求右侧部分用减法即可。

        X和Y相互独立,E(X+Y)=E(X)+E(Y);var(X+Y)=Var(X)+var(Y);E(X-Y)=E(X)-E(Y);var(X-Y)=Var(X)+var(Y);ax+b符合N(a\mu +b,a^2 \sigma ^2 )的正态分布。

        当np>5;nq>5时,可以用正态分布代替二项分布。\mu =np;\sigma ^2 = npq。由于离散型变量和连续型变量不同,如6代表的5.5-6.5之间的所有数。因此需要做一些连续性修正。如P(X<=6)用P(x<6.5)代替;P(X>=6)用P(x>5.5)代替;P(X<6)用P(x<5.5);P(X>6)用P(x>6.5)。必须根据需要把对应值联系进去或者除去。

     当\lambda >15时,可以用正态分布代替泊松分布。

二、数据统计

        数据统计过程中,有一些指标可以显示数据内在信息,除均值,众数,中位数以外,还有极差(最大值减去最小值)也叫全距。四分位数和四分位距(Q1,Q2,Q3;Q3-Q1;上四分位数减去下四分位数),与全距相比,它很少收到异常值的影响。

        方差、标准差。以及标准分,标准分是新数据与同一数据集中的历史数据进行比较的结果。z = \frac{x-\mu }{\sigma } ,不同数据集之间比较标准分,可以将不同数据集转换为理论上均值为0标准差为1的新分布。一般均值和标准差相同的数据集,可以用标准分来进一步区分。例如(比较两人进步幅度)标准分的大小实际表示了数据与均值之间的距离。

三、概率统计

       条件概率:P(A|B)=\frac{p(A\cap B)}{P(B)} ;

四、图像显示

        (1)箱形图

            箱形图可以在一张图上显示多组数据的各种信息,包括:上界、下界,中位数,上四分位数和下四分位数,箱的左右两边分别是上四分位数和下四分位数,箱中的线为中位数。箱子的宽度为四分位距。

        (2)维恩图

            维恩图常用来表示概率情况。     

五、置信区间

        样本可以估计总体,但不是说完全一致。一般需要在选择的总体统计量并求出其样本分布后,选择一个自己相信的置信水平 。并根据此求出置信上下限。

六、t分布

       当总体满足正态分布,方差未知且样本量很少时,样本符合t分布。t分布只有一个参数v(自由度),v=n-1;t分布的标准分计算方法和正态分布一致。转为标准分好求概率和置信区间。

七、卡方检验

        检验统计量\chi ^2提供了一种对观察频数和期望频数之间对差异进行度量的方法。其值越小,差距越小。\chi ^2 = \frac{(O-E)^2 }{E} ;其中O表示观察频数,E表示期望频数。通过卡方检验,一可以检验拟合度、二检验两个变量的独立性。

       卡方检验用到一个参数,纽----\nu 。也叫自由度。用于计算卡方检验独立变量的数量。v=组数-限制数。组数表示有几组观察频数和期望频数。由于我们希望观察频数和期望频数保持一致,因此计算时受到一个限制,也就是限制数为1。

       对卡方分布对检验为单尾检验。右尾为拒绝域。利用显著性水平值和卡方概率表。可以得出临界值。根据临界值来决定接收还是拒绝。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容