一、数据分布
离散型随机变量分布常见的有伯努利分布(Bernoulli Distribution)、二项分布(Binomial Distribution)、泊松分布(Poisson Distribution)等,而常见的连续型随机变量分布包括均匀分布(Uniform Distribution)、指数分布(Exponential Distribution)、正态分布等。
离散型数据:数据只能取特定的值,比如,当你掷一个骰子的时候,可能的结果只有 1,2,3,4,5,6 而不会是 1.5 或者 2.45。
连续型数据:数据可以在给定的范围内取任何值,给定的范围可以是有限的或无限的,比如一个女孩的体重或者身高,或者道路的长度。一个女孩的体重可以是 54 kgs,54.5 kgs,或 54.5436kgs。
(1)离散型概率分布
1、伯努利分布(0-1分布)
事件A在某次试验中发生的概率稳定计为p,但A要么发生要么不发生,随机变量X,单次试验中A发生记为1,没有发生记为0,则P(X=1)=p,P(X=0)=1−p
2、二项分布
n重伯努利试验,事件A在某次试验中发生的概率稳定计为p,但A要么发生要么不发生,随机变量X表示在n次试验后,事件A发生的次数,显然,X的取值为{0,1,2,…,n}。;;;;
3、泊松分布
但日常生活中,我们也会遇到大量这样的事情:在某个时间段内发生频率相对稳定,但在时间段内随时都有可能发生的事情。例如,车辆通过十字路口,医院有婴儿出生,超市的鲜奶被购买,机器运行时发生故障。这些事情一般用“单位时间内事件发生的次数”来描述,机器运行一个月发生2次故障,超市一天出售50袋鲜奶,医院每小时出生3名婴儿,15分钟内有40辆车通过某路口。每当有洪涝灾害时,新闻报道中经常会出现“五十年一遇”,“百年一遇”等字眼,也是对这种现象的描述。它们的特点就是:我们可以预估这些事件在某段连续时间内的总数,但是没法知道具体的发生时间。
泊松分布就是用来描述这种某段连续的时间内某独立事情发生次数的概率分布
;表示时间平均发生的次数;r表示想要预测事件的发生的次数;;;
若X和Y相互独立,那么P(X+Y)=P(X)+P(Y);E(X+Y)=E(X)+E(Y);
特定情况下,泊松分布可以用来代替二项分布。例如:如果需要计算二项分布,其中n=3000,那么就需要计算n!;计算量会比较大。当n很大且p很小时,np和npq近似相等。此时就可以用泊松分布近似二项分布。
4、几何分布
在n重伯努利试验,试验k次才得到第一次成功的机率。也就是前k-1次皆失败,第k次成功的概率。;;;;
.几何分布跟正态分布图像差异很大,不能被近似。
(2)连续型概率分布
曲线下面积为1
1、均匀分布
假设我们在从 a 到 b 的一段线段上等距地选择一个区间的概率是相等的,那么概率在整个区间 [a,b] 上是均匀分布的,概率密度函数也不会随着变量的更改而更改。
2、正态分布
几乎与自然相关的大多是近似的正态分布,比如人或动物的身高分布,体重分布,成年人对血压,人群鞋码。在天文、生态、医学等等。我们周围的大部分变量都呈置信度为 x% 的正态分布(x<100)。所以说,生活中经常出现的各种变量,差不多都能用高斯分布描述。
几乎与社会相关的大多是偏态分布,比如一定时间一定空间里的人、车的流量;人口增长与消亡的分布。
正态分布也被称为高斯分布。以天才卡尔·弗里德里希·高斯(Carl Friedrich Gauss)的名字命名。简单的预测模型一般都是最常用的模型,因为它们易于解释,也易于理解。而正态分布因为简单而流行。正态分布是最常用的概率分布。
如果对样本对概率分布作图,得到一条倒钟形曲线,样本的平均值、众数以及中位数是相等的,那么该变量就是正态分布的。如图:
正态分布依赖数据集中两个参数,分别是:平均值和标准差。均值表现于图像对峰值处,而标准差表现为准则。
即:约有 68.2% 的点落在 ±1 个标准差的范围内;约有 95.5% 的点落在 ±2 个标准差的范围内;约有 99.7% 的点落在 ±3 个标准差的范围内。利用这个标准,就可以在根据这个数据集作出决策时,有多大对置信度。
如果 A 和 B 是两个服从正态分布的变量,那么:AxB 服从正态分布;A+B 服从正态分布。
如果样本满足某个未知的分布,那么通过一系列操作,它总是能变成正态分布。相反,标准正态分布的叠加与转换,也一定能变化为任意未知分布。从标准正态转换到未知分布,就是很多机器学习模型希望做到的,不论是视觉中的 VAE 或 GAN,还是其它领域的模型。但对于传统统计学,我们更希望将特征的分布转换成正态分布,因为正态分布简单又好算。
(1)归一化可以将数据从未知分布转化为正太分布
(2)scipy 的 box-cox 变换
(3)sklearn 的 yeo-johnson 变换。
由于正态分布的情况很多,为方便得到概率,一般需要把正态分布转换为标准正态分布。具体操作如下:
若一个正态分布均值等于71,方差为20.25,标准差为;4.5那么即属于标准正态分布;又叫做标准分。可通过标准分的数值,在标准概率曲线的表上查找相应概率。概率表上的数值为P(Z<z)即概率曲线图上该数值所在横坐标点左侧部分的曲线下面积。要求右侧部分用减法即可。
X和Y相互独立,E(X+Y)=E(X)+E(Y);var(X+Y)=Var(X)+var(Y);E(X-Y)=E(X)-E(Y);var(X-Y)=Var(X)+var(Y);ax+b符合的正态分布。
当np>5;nq>5时,可以用正态分布代替二项分布。;。由于离散型变量和连续型变量不同,如6代表的5.5-6.5之间的所有数。因此需要做一些连续性修正。如P(X<=6)用P(x<6.5)代替;P(X>=6)用P(x>5.5)代替;P(X<6)用P(x<5.5);P(X>6)用P(x>6.5)。必须根据需要把对应值联系进去或者除去。
当时,可以用正态分布代替泊松分布。
二、数据统计
数据统计过程中,有一些指标可以显示数据内在信息,除均值,众数,中位数以外,还有极差(最大值减去最小值)也叫全距。四分位数和四分位距(Q1,Q2,Q3;Q3-Q1;上四分位数减去下四分位数),与全距相比,它很少收到异常值的影响。
方差、标准差。以及标准分,标准分是新数据与同一数据集中的历史数据进行比较的结果。,不同数据集之间比较标准分,可以将不同数据集转换为理论上均值为0标准差为1的新分布。一般均值和标准差相同的数据集,可以用标准分来进一步区分。例如(比较两人进步幅度)标准分的大小实际表示了数据与均值之间的距离。
三、概率统计
条件概率:;
四、图像显示
(1)箱形图
箱形图可以在一张图上显示多组数据的各种信息,包括:上界、下界,中位数,上四分位数和下四分位数,箱的左右两边分别是上四分位数和下四分位数,箱中的线为中位数。箱子的宽度为四分位距。
(2)维恩图
维恩图常用来表示概率情况。
五、置信区间
样本可以估计总体,但不是说完全一致。一般需要在选择的总体统计量并求出其样本分布后,选择一个自己相信的置信水平 。并根据此求出置信上下限。
六、t分布
当总体满足正态分布,方差未知且样本量很少时,样本符合t分布。t分布只有一个参数v(自由度),v=n-1;t分布的标准分计算方法和正态分布一致。转为标准分好求概率和置信区间。
七、卡方检验
检验统计量提供了一种对观察频数和期望频数之间对差异进行度量的方法。其值越小,差距越小。;其中O表示观察频数,E表示期望频数。通过卡方检验,一可以检验拟合度、二检验两个变量的独立性。
卡方检验用到一个参数,纽----。也叫自由度。用于计算卡方检验独立变量的数量。v=组数-限制数。组数表示有几组观察频数和期望频数。由于我们希望观察频数和期望频数保持一致,因此计算时受到一个限制,也就是限制数为1。
对卡方分布对检验为单尾检验。右尾为拒绝域。利用显著性水平值和卡方概率表。可以得出临界值。根据临界值来决定接收还是拒绝。