没有学不会的人工智能-概率论篇

目前网络上流传着无数版本的人工智能入门书单,无一例外的都需要学习数学。对于很多毕业多年的程序猿(媛)来说,再次复习数学可能是一件很痛苦的事情。

初学者的热情都会被繁琐的公式、烧脑的概念给磨灭的所剩无几,本文将从人工智能所需的概率论知识入手,结合参考资料将复杂的公式和定理简单化,力求最快的进行一次人工智能基础入门。

01

古典概率模型

在古典概率模型中,试验的结果只包含有限个基本事件,且单个事件发生的可能性相同。这段话可能不好理解,先不着急。我们先看一下对应的数学解释。

假设所有的基本事件的数据为n,待观察的随机事件A包含的基本事件数目为k,则随机事件A发生的概率公式为:

image

(1)

例如,在抛100次硬币的试验中,n = 100,想要观察“抛出正面”则称之为随机事件A,在100次试验中,随机事件A发生的次数是k = 50次,那么抛出正面的概率为 1/2。

上面的定义针对的是随机事件,如果想要刻画多个随机事件之间的关系,那么古典概率模型就无能为力了,需要引入其他的方式了,比如条件概率。

02

条件概率

什么是条件概率呢?

首先看一段数学解释:条件概率是根据已知信息对样本空间进行调整后得到的新的概率分布。条件概率仍然描述的是样本空间的概率分布,只不过需要根据已知的样本进行了调整。假设两个随机事件A和B,条件概率就是指事件A在事件B已经发生的条件下发生的概率,可以使用数学公式来表示:

image

(2)

我们来看一个简单的例子:在一次足球比赛中,求解球队在已经0:2落后的情况下最后以3:2翻盘获胜的概率?0:2就是上式中的随机事件B,3:2获胜就是上式中的随机事件A。

我们继续来看一下几何解释:如下图,A∩B表示在B已发生的情况下A发生的概率,则P(A∩B) = P(AB)。就可以推导出上面的公式了。

image

P(AB)表示的联合概率,标识了随机事件A和随机事件B同时发生的概率。

如果联合概率P(AB)等于各自发生概率的乘积,也即P(AB) = P(A)·P(B),则表示随机事件A与随机事件B之间互相独立,没有任何关系,于是得出P(A|B) = P(B)。

03

全概率公式

了解联合概率、条件概率,我们来看一下全概率公式。全概率公式是用于将复杂事件的概率转换成在不同情况下简单事件发生的概率求和。先看个公式:

image
image

(3)

怎么理解上面的公式呢,我们看一个简单的例子:小明从家到公司有B1、B2、B3三条路,小明每次上班选择上述三条路的概率分别是P(B1)=0.5P(B2)=0.3和******P(B3)=0.2。这三条路不拥堵的概率为P(A1)=0.2P(A2)=0.4P(A3)=0.5。求小明每次上班不迟到(不拥堵代表不迟到)的概率是多少?

image

设随机事件A表示上班不迟到,则P(A|B1)、P(A|B2)、P(A|B3)分别表示选择B1\B2\B3上班不迟到的概率,那么就有:

image

(4)

公式中的每一项表示:选择第i条路不迟到的概率 = 选择第i条路的概率 * 选择第i条路的前提下还不迟到的概率。

公式(1)和公式(2)等价,即为全概率公式。

全概率公式表示了一个解决概率论问题的思路:先做出一些假设P(Bi),再在这些假设的发生的情况下讨论复杂事件A发生的概率。

04

贝叶斯公式及定理

在上面小明上班不迟到的例子中,我们继续提问:求小明在不迟到的情况下,选择B1这条路的概率是多少。

在条件概率中我们推到除了公式(2),将公式(2)换个方式,就可以得到条件概率P(AB) = P(A|B)·P(B)。在这个问题中,小明不迟到的情况下选择B1这条路的概率P(B1|A)就等价于随机事件A(小明不迟到)和随机事件B(小明选择B1这条路)同时发生的概率P(AB)除以事件A的概率P(A)。也即:

image

(5)

将上面的全概率公式带入(5)中,即可得到贝叶斯公式:

image

(6)

我们将式(5)中的Bi和A分别替换为H和D,即可抽象出贝叶斯定理:

image

(7)

其中P(H)表示先验概率,即预先设定的假设成立的概率;

p(D|H)表示似然概率,即假设成立的前提下结果发生的概率;

P(H|D)表示后验概率,即结果发生的前提下,假设成立的概率。

比较抽象,我们仍然利用上述选路的例子来进行说明:

P(B1)就是先验概率,表示了假设选择第一条路的概率;

P(A|B1)就是似然概率,表示了选择第一条路前提下不迟到的概率;

P(B1|A)就是后验概率,表示了在不迟到的结果下,假设选第一条路的概率。

贝叶斯定理关注的是后验概率,即根据观察到的结果来寻找合理的假设。

05

两个学派

其实概率论的研究可以根据上述的古典模型和贝叶斯定理分为两个学派:

  • 频率学派

  • 贝叶斯学派

同一个硬币向上抛10次,正面朝上的次数即为频率。从事件发生的频率来认识概率的研究方向,被称为“频率学派”。

天气预报以及明天下雨的概率是80%,就不能从频率的角度来认识了,这个只能看做是可信度,也就是说明天下雨的可信度是80%。从随机事件发生的可信度来认识概率的研究方向,被称为“贝叶斯学派”。

频率学派认为假设是客观存在且不会改变的,即存在固定的先验概率。

贝叶斯学派认为固定的先验概率不存在,参数本身也是随机,也就是说假设是取决于观察结果的,不确定且可以修正的。数据就是用来对假设进行调整的,也即调参。

06

参数估计

在机器学习中,我们经常会听到参数、模型等概念,那这些概念表示什么呢?比如,我们可以使用公式y=ax+b来描述一组数据的分布,这就是线性模型。那么参数a和b就确定了这个线性模型的形状。我们根据已经发生的样本数据来分析总体对应的模型,就需要估计参数,这就是参数估计。

在概率论中,参数估计有两种方式,分别是:

  • 最大似然估计

  • 最大后验估计

这两种估计方法分别对应了“频率学派”和"贝叶斯学派"。那怎么理解这两种估计方法呢?

最大似然估计

似然,字面理解就是“貌似就是这样”,最大似然估计也即样本已经发生了,求使得样本发生概率最大时对应的参数值,因为既然样本能发生,那么这种情况概率就最大。

我们先看个简单的例子,在一个盒子里放了未知个数且大小均匀的黑球和白球,每次从盒子里取一个球,记录它的颜色之后放回到盒子里。现在共取了100个球,其中黑球的个数是60个,那么通过黑球出现的频率我们知道黑球的概率是60%,为什么呢?这里头包含了什么思想呢?

我们先假设黑球的概率是p,我们定义随机事件A表示100次试验中黑球出现60次,白球出现40次,那么就有:

image

(8)

我们知道,最大似然估计的思想是,随机事件已经发生,找出参数似的随机事件A发生的概率最大,即找到参数p的值使得P(A)最大。在高等数学中,我们知道函数的极值就是该函数导数为0的点。对P(A)求导数,于是有了下面的式子:

image

(9)

根据式(9)即可得到 p = 60%。

这就是最大似然估计的数学思想。

最大后验估计

最大后验估计运用的其实是贝叶斯公式,考虑的是找到一个参数值使得后验概率最大。我们由贝叶斯公式知道:

image

(10)

需要找到一个θ的值(θ满足先验分布p(θ))使得后验概率p(θ|D)取最大值。也就是说上面就可以看做一个关于θ的函数,我们记为L(θ),由于D与θ无关,所以可以看成***L(θ) = P(D|θ) *· P(θ) ****。可以看到P(D|θ)是似然概率,如果p(θ)先验概率为1,那么最大后验估计的值跟最大似然估计的值就是一样的了。所以,最大后验估计其实就是加入了一个先验概率来进行纠正。

我们来看一个使用贝叶斯公式计算概率的经典问题:

有一种病,通过抽样调查,在人群中的得病率为1%,采取了一种检查手段,如果报告呈阳性说明有95%的可能性患病,请问如果一个人的检查报告呈阳性,那么他患病的概率是多少?

王天一《人工智能基础课》

其实就是求条件概率。

image

这个例子说明了什么呢?得病是存在先验分布的,也就是人群中的患病率为1%。如果不考虑这个先验分布,那么他患病的概率就是95%。这就是最大后验估计的数学思想。

** 结语 **

概率论的很多思想被广泛应用于机器学习中,学好概率论是入门机器学习的前提之一,一起加油!

关于关注公众号“岁与禾”,查看更多精彩内容!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,064评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,606评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,011评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,550评论 1 269
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,465评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,919评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,428评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,075评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,208评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,185评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,191评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,914评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,482评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,585评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,825评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,194评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,703评论 2 339