概率在AI领域也扮演着重要的角色。
1. 意义
- 随着连接主义学派的兴起,概率统计已经取代了数理逻辑,成为人工智能研究的主流工具。
- 在数据爆炸式增长和计算力指数化增强的今天,概率论已经在机器学习中扮演了核心角色。
- 关注的焦点是无处不在的可能性。
- 人工智能而言:线性代数是砖头,概率论是水泥
2.相关概念
- 古典概率:试验的结果只包含有限个基本事件,且每个基本事件发生的可能性相同。
- 条件概率(conditional probability):根据已有信息对样本空间进行调整后得到的新的概率分布。
-
公式:
- P(AB):称为联合概率(joint probability),表示的是 A 和 B 两个事件共同发生的概率
- 如果联合概率等于两个事件各自概率的乘积,即 P(AB)=P(A)⋅P(B),说明这两个事件的发生互不影响,即两者相互独立。
- 对于相互独立的事件,条件概率就是自身的概率,即 P(A|B)=P(A)。
-
公式:
- 条件概率(conditional probability):根据已有信息对样本空间进行调整后得到的新的概率分布。
- 全概率公式(law of total probability):将复杂事件的概率求解转化为在不同情况下发生的简单事件的概率求和,即
-
求和
-
其中P(Bi)求和为1
-
求和
- 逆概率(贝叶斯):在事件结果已经确定的条件下(P(A)),推断各种假设发生的可能性(P(Bi|A))
- 对全概率公式稍作整理,就演化出了求解“逆概率”这一重要问题。
-
这套理论首先由英国牧师托马斯·贝叶斯提出,因而其通用的公式形式被称为贝叶斯公式:
-
贝叶斯公式可以进一步抽象为贝叶斯定理(Bayes' theorem):
- P(H) 被称为先验概率(prior probability),即预先设定的假设成立的概率;
- P(D|H)被称为似然概率(likelihood function),是在假设成立的前提下观测到结果的概率;
- P(H|D)被称为后验概率(posterior probability),即在观测到结果的前提下假设成立的概率。
- 从科学研究的方法论来看,贝叶斯定理提供了一种全新的逻辑。它根据观测结果寻找合理的假设,或者说根据观测数据寻找最佳的理论解释,其关注的焦点在于后验概率。
- 在贝叶斯学派眼中,概率描述的是随机事件的可信程度。
-
频率学派和贝叶斯学派
- 频率学派认为假设是客观存在且不会改变的,即存在固定的先验分布,只是作为观察者的我们无从知晓。因而在计算具体事件的概率时,要先确定概率分布的类型和参数,以此为基础进行概率推演。
- 贝叶斯学派则认为固定的先验分布是不存在的,参数本身也是随机数。假设本身取决于观察结果,是不确定并且可以修正的。数据的作用就是对假设做出不断的修正,使观察者对概率的主观认识更加接近客观实际。
- 人工智能:实际任务中可供使用的训练数据有限,因而需要对概率分布的参数进行估计,这也是机器学习的核心任务。
- 概率的估计有两种方法:最大似然估计法(maximum likelihood estimation)和最大后验概率法(maximum a posteriori estimation),两者分别体现出频率学派和贝叶斯学派对概率的理解方式。
- 最大似然估计法(参数估计)的思想是使训练数据出现的概率最大化,依此确定概率分布中的未知参数,估计出的概率分布也就最符合训练数据的分布。
- 最大似然估计:参数估计,n次实验m次产生,最大似然概率为m/n,要求参数的满足这个概率。不然不是最优。
- 最大后验概率法的思想则是根据训练数据和已知的其他条件,使未知参数出现的可能性最大化,并选取最可能的未知参数取值作为估计值。在估计参数时,最大似然估计法只需要使用训练数据,最大后验概率法除了数据外还需要额外的信息,就是贝叶斯公式中的先验概率。
-
随机变量(random variable)
- 离散型随机变量(discrete random variable)
- 连续型随机变量(continuous random variable)
概率质量函数(probability mass function):离散变量的每个可能的取值都具有大于 0 的概率,取值和概率之间一一对应的关系就是离散型随机变量的分布律
-
概率密度函数(probability density function):概率质量函数在连续型随机变量
- 概率密度函数体现的并非连续型随机变量的真实概率,而是不同取值可能性之间的相对关系。
- 对概率密度函数进行积分,得到的才是连续型随机变量的取值落在某个区间内的概率。
-
离散分布
- 两点分布(Bernoulli distribution):适用于随机试验的结果是二进制的情形,事件发生 / 不发生的概率分别为 p/(1−p)。如抛硬币概率
-
二项分布(Binomial distribution):将满足参数为 p 的两点分布的随机试验独立重复 n 次,事件发生的次数即满足参数为 (n,p) 的二项分布。二项分布的表达式可以写成
-
泊松分布(Poisson distribution):放射性物质在规定时间内释放出的粒子数所满足的分布,参数为 λλ 的泊松分布表达式为:
- 当二项分布中的 n 很大且 p 很小时,其概率值可以由参数为 λ=np、的泊松分布的概率值近似。
-
连续分布
- 均匀分布(uniform distribution):在区间 (a, b) 上满足均匀分布的连续型随机变量,其概率密度函数为 1 / (b - a),这个变量落在区间 (a, b) 内任意等长度的子区间内的可能性是相同的。
-
指数分布(exponential distribution):满足参数为 θ 指数分布的随机变量只能取正值,其概率密度函数为
- 指数分布的一个重要特征是无记忆性:即 P(X > s + t | X > s) = P(X > t)。
-
正态分布(normal distribution):参数为正态分布的概率密度函数为
* 当 μ=0,σ=1μ=0,σ=1 时,上式称为标准正态分布。自然界中的很多现象都近似地服从正态分布。
* 数学期望(expected value):均值,体现的是随机变量可能取值的加权平均,即根据每个取值出现的概率描述作为一个整体的随机变量的规律。
* 方差(variance):随机变量的取值与其数学期望的偏离程度。方差较小意味着随机变量的取值集中在数学期望附近,方差较大则意味着随机变量的取值比较分散。
* 协方差(covariance):描述两个随机变量之间的相互关系,要用到协方差和相关系数。协方差度量了两个随机变量之间的线性相关性,即变量 Y 能否表示成以另一个变量 X 为自变量的 aX+b 的形式
* 相关系数(correlation coefficient):相关系数是一个绝对值不大于 1 的常数,它等于 1 意味着两个随机变量满足完全正相关,等于 -1 意味着两者满足完全负相关,等于 0 则意味着两者不相关。
* 协方差还是相关系数,刻画的都是线性相关的关系。如果随机变量之间的关系满足 平方,这样的非线性相关性就超出了协方差的表达能力。