AI学习笔记之数学基础二（概率论）

概率在AI领域也扮演着重要的角色。

1. 意义

随着连接主义学派的兴起，概率统计已经取代了数理逻辑，成为人工智能研究的主流工具。
在数据爆炸式增长和计算力指数化增强的今天，概率论已经在机器学习中扮演了核心角色。
关注的焦点是无处不在的可能性。
人工智能而言：线性代数是砖头，概率论是水泥

2.相关概念

古典概率：试验的结果只包含有限个基本事件，且每个基本事件发生的可能性相同。
- 条件概率（conditional probability）：根据已有信息对样本空间进行调整后得到的新的概率分布。
  - 公式：
  - P(AB):称为联合概率（joint probability），表示的是 A 和 B 两个事件共同发生的概率
  - 如果联合概率等于两个事件各自概率的乘积，即 P(AB)=P(A)⋅P(B)，说明这两个事件的发生互不影响，即两者相互独立。
  - 对于相互独立的事件，条件概率就是自身的概率，即 P(A|B)=P(A)。
全概率公式（law of total probability）：将复杂事件的概率求解转化为在不同情况下发生的简单事件的概率求和，即
- 求和
- 其中P(Bi)求和为1

逆概率（贝叶斯）：在事件结果已经确定的条件下（P(A)），推断各种假设发生的可能性（P(Bi|A)）
- 对全概率公式稍作整理，就演化出了求解“逆概率”这一重要问题。
- 这套理论首先由英国牧师托马斯·贝叶斯提出，因而其通用的公式形式被称为贝叶斯公式：

贝叶斯公式可以进一步抽象为贝叶斯定理（Bayes' theorem）：
- P(H) 被称为先验概率（prior probability），即预先设定的假设成立的概率；
- P(D|H)被称为似然概率（likelihood function），是在假设成立的前提下观测到结果的概率；
- P(H|D)被称为后验概率（posterior probability），即在观测到结果的前提下假设成立的概率。
- 从科学研究的方法论来看，贝叶斯定理提供了一种全新的逻辑。它根据观测结果寻找合理的假设，或者说根据观测数据寻找最佳的理论解释，其关注的焦点在于后验概率。
- 在贝叶斯学派眼中，概率描述的是随机事件的可信程度。
频率学派和贝叶斯学派
- 频率学派认为假设是客观存在且不会改变的，即存在固定的先验分布，只是作为观察者的我们无从知晓。因而在计算具体事件的概率时，要先确定概率分布的类型和参数，以此为基础进行概率推演。
- 贝叶斯学派则认为固定的先验分布是不存在的，参数本身也是随机数。假设本身取决于观察结果，是不确定并且可以修正的。数据的作用就是对假设做出不断的修正，使观察者对概率的主观认识更加接近客观实际。
- 人工智能：实际任务中可供使用的训练数据有限，因而需要对概率分布的参数进行估计，这也是机器学习的核心任务。
- 概率的估计有两种方法：最大似然估计法（maximum likelihood estimation）和最大后验概率法（maximum a posteriori estimation），两者分别体现出频率学派和贝叶斯学派对概率的理解方式。
- 最大似然估计法（参数估计）的思想是使训练数据出现的概率最大化，依此确定概率分布中的未知参数，估计出的概率分布也就最符合训练数据的分布。
- 最大似然估计：参数估计，n次实验m次产生，最大似然概率为m/n，要求参数的满足这个概率。不然不是最优。
- 最大后验概率法的思想则是根据训练数据和已知的其他条件，使未知参数出现的可能性最大化，并选取最可能的未知参数取值作为估计值。在估计参数时，最大似然估计法只需要使用训练数据，最大后验概率法除了数据外还需要额外的信息，就是贝叶斯公式中的先验概率。
随机变量（random variable）
- 离散型随机变量（discrete random variable）
- 连续型随机变量（continuous random variable）
概率质量函数（probability mass function）：离散变量的每个可能的取值都具有大于 0 的概率，取值和概率之间一一对应的关系就是离散型随机变量的分布律
概率密度函数（probability density function）：概率质量函数在连续型随机变量
- 概率密度函数体现的并非连续型随机变量的真实概率，而是不同取值可能性之间的相对关系。
- 对概率密度函数进行积分，得到的才是连续型随机变量的取值落在某个区间内的概率。
离散分布
- 两点分布（Bernoulli distribution）：适用于随机试验的结果是二进制的情形，事件发生 / 不发生的概率分别为 p/(1−p)。如抛硬币概率
- 二项分布（Binomial distribution）：将满足参数为 p 的两点分布的随机试验独立重复 n 次，事件发生的次数即满足参数为 (n,p) 的二项分布。二项分布的表达式可以写成
泊松分布（Poisson distribution）：放射性物质在规定时间内释放出的粒子数所满足的分布，参数为 λλ 的泊松分布表达式为：
- 当二项分布中的 n 很大且 p 很小时，其概率值可以由参数为 λ=np、的泊松分布的概率值近似。
连续分布
- 均匀分布（uniform distribution）：在区间 (a, b) 上满足均匀分布的连续型随机变量，其概率密度函数为 1 / (b - a)，这个变量落在区间 (a, b) 内任意等长度的子区间内的可能性是相同的。
- 指数分布（exponential distribution）：满足参数为 θ 指数分布的随机变量只能取正值，其概率密度函数为
- 指数分布的一个重要特征是无记忆性：即 P(X > s + t | X > s) = P(X > t)。
- 正态分布（normal distribution）：参数为正态分布的概率密度函数为

        *   当 μ=0,σ=1μ=0,σ=1 时，上式称为标准正态分布。自然界中的很多现象都近似地服从正态分布。
*   数学期望（expected value）：均值，体现的是随机变量可能取值的加权平均，即根据每个取值出现的概率描述作为一个整体的随机变量的规律。
*   方差（variance）：随机变量的取值与其数学期望的偏离程度。方差较小意味着随机变量的取值集中在数学期望附近，方差较大则意味着随机变量的取值比较分散。
*   协方差（covariance）：描述两个随机变量之间的相互关系，要用到协方差和相关系数。协方差度量了两个随机变量之间的线性相关性，即变量 Y 能否表示成以另一个变量 X 为自变量的 aX+b 的形式
*   相关系数（correlation coefficient）：相关系数是一个绝对值不大于 1 的常数，它等于 1 意味着两个随机变量满足完全正相关，等于 -1 意味着两者满足完全负相关，等于 0 则意味着两者不相关。
*   协方差还是相关系数，刻画的都是线性相关的关系。如果随机变量之间的关系满足 平方，这样的非线性相关性就超出了协方差的表达能力。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342

AI学习笔记之数学基础二（概率论）

1. 意义

2.相关概念

推荐阅读更多精彩内容