模式识别课程(二)-参数估计：最大似然估计和贝叶斯估计

本笔记是笔者课程学习中所做笔记(绝对原创)，转载请附本文链接及作者信息。
有问题欢迎在交流区探讨学习，QQ：761322725
码字不易，好心人随手点个赞👍
个人认为课程所用PPT是对模式识别原理讲解最为透彻且容易理解的ppt
本文基础是贝叶斯决策https://www.jianshu.com/p/6f5273c09359
基础数理统计知识：概率分布、概率密度函数、贝叶斯公式https://blog.csdn.net/anshuai_aw1/article/details/82626468
贝叶斯决策知识 https://www.jianshu.com/p/6f5273c09359
背景：
实际分类中概率结构的完整信息很难获知，通常只知道总体分布的模糊信息和训练样本
- 需要利用训练样本 $\color{red}{估计先验概率和类条件概率密度}$
- 1.估计先验概率 $P(\hat{w_i})=\frac{N_i}{N}$ , $N_i$ 是训练集中N个样本中 $w_i$ 类的样本数量
- 2.估计样本中的类条件概率密度
  
  参数估计即针对类条件概率密度进行估计，主要有两大类方法：

0. 基本概念

1.最大似然估计(Maximum-Likelihood Estimation,ML)

1.1基本假设

类条件概率密度 $𝒑(𝑿|𝝎_𝒋)$ 函数形式已知 , 参数未知但确定 , 记作 𝜽𝒋, 因此可以将 $𝒑(𝑿|𝝎_𝒋)$ 改写为 $𝒑(𝑿|𝝎_𝒋,𝜽_𝒋)$ 或 $𝒑(𝑿|𝜽_𝒋), j=1,2,…,c$ c为类别数量。
同时有以下重要性质：
每类样本集 $𝒟_𝑗$ 中的样本都是从密度为 $𝑝(𝑋|𝜔_𝑗)$ 的总体中独立抽出，即 $𝒟_𝑗$ 中的 $\color{red}{样本是独立同分布的}$ 。
各类样本只包含本类的分布信息，即不同类别的参数 $𝜽_𝒋$ 是各自独立的
在独立性假设下，可将原问题看作 c 个独立的问题。即，每一类
独立地按照概率密度 $𝒑(𝑿|𝜽)$ 抽取样本集 𝓓，用 𝓓估计出参数 𝜽 (分而治之)

将分类问题分解为各类的子问题后，我们来关注具体的参数 $\theta$ 的估计过程

1.2基本原理

𝒟={𝑿1,…,𝑿𝑛}，设各样本按条件概率密度 $𝑝(𝐱|𝜃)$ 从总体中独立抽取，有
$\color{red}{P(\mathit{D}|\theta)=p(\mathbf{X}_1,...,\mathbf{X}_n|\theta)=\prod_{k=1}^{n}p(\mathbf{X}_k|\theta)}$
我们将 $P(\mathit{D}|\theta)$ 称为参数 $\theta$ 对于样本集D的似然函数

所以最终的目的就是对似然函数求最大值，最大似然估计的方法也因此而来

1.3微分求解

当似然函数为可微函数，可以通过求导计算出最大值，得出估计值

注意：并不是所有似然函数都可微分！！！

1.4示例

2. 贝叶斯估计

2.1基本思想

贝叶斯估计方法与最大似然估计方法有本质不同，它把参数向量 θ 本身看成一个随机变量 ，根据观测数据对参数的分布进行估计，即后验概率密度 𝑝(𝜃|𝒟)。
贝叶斯学习，则是把贝叶斯估计的原理用于直接从数据对概率密度函数进行迭代估计。
原问题：估计概率密度。假设 $𝑝(𝐱|𝜃)$ 函数形式已知，参数𝜃未知且不固定；
目标：根据给定的样本集 𝓓={𝑋1,…,𝑋𝑛}，找到未知参数 𝜃的一个估计量，使得由此带来的风险最小。

因此贝叶斯估计将利用这一点对后验分布进行估计

2.2 贝叶斯估计

基本前提： $𝑝(𝐱|𝜃)$ 函数形式已知，参数𝜃未知且不固定；𝜽取值的参数空间 𝚯是一个连续空间
用类似于最小风险判决的方法来估计未知随机参数
$𝝀(\hat{\theta}|\theta)$ 标记真实参数为 𝜽, 得到的估计量为 $\hat{\theta}$ 时承担的损失。

𝜽的贝叶斯估计是使得贝叶斯风险最小化的估计 $\hat{𝜽}$ 。
最常用的损失函数为平方误差损失，

根据该定理，就可以得到估计参数的方法：

具体的贝叶斯估计过程如下图所示：

2.3 贝叶斯学习

通过上一节对贝叶斯估计的过程的分析，可以知道贝叶斯估计为了得到最终的概率分布情况（估计概率密度），采用贝叶斯公式计算参数的后验概率，进行了问题的转换。
而贝叶斯学习，则不经过中间的参数估计步骤, $\color{red}{直接由样本集推断总体的概率分布}$

注意与的差别，前者表示数据分布情况的参数，后者则是数据具体的分布情况，得到后可以得到具体的数据分布函数，从而知道数据的分布情况即

具体求解过程

至此我们得到了可以用于贝叶斯学习的公式，参数学习的迭代过程如下：

随着n 值的增加， 𝜽的相应后验概率密度一般会变得越来越尖锐。
若上述概率密度函数序列在𝒏→∞时 , 收敛于以真值参数 𝜽为中心的狄拉克 𝜹函数，则称相应的学习过程为贝叶斯学习过程

上述式子中为样本集数据，可以看出贝叶斯学习实现了从样本到总体分布的推导学习

2.4 贝叶斯学习示例

注意上面的结果，先得到了参数的估计值，所以第一个图反映的是参数的情况，第二图才是概率密度的估计情况，贝叶斯学习的结果是在0到8间是均匀分布，而8到10存在其他分布，所以概率密度图中函数直线部分的值小于0.125(1/8)。

2.5 贝叶斯估计总结

主要的问题就是上述的两步：
1 计算参数后验密度函数
2 计算类条件密度
两类估计方法的差别

联系：最大似然估计可解释为具有均匀先验的最大后验概率估计。当训练样本数趋于无穷大时，两者效果一致。
贝叶斯估计方法有很强的理论和算法基础。但在实际应用中，最大似然估计更简便，且设计出的分类器的性能几乎与贝叶斯方法得到的结果相差无几。

2.6 参数估计方法总结

最大似然估计：将参数视为未知固定值， $\color{red}{参数点的估计}$
贝叶斯估计：将参数视为随机变量， $\color{red}{参数分布的估计}$

3. 无监督参数估计

3.1 问题

样本类别未知（无监督）情况下的类条件概密参数估计问题，被称为无监督参数估计
把参数估计方法推广到概率模型中含有隐变量如 样本的未知类别或允许样本存在缺失特征 的情况
问题描述：给定混合样本集 𝒟=𝑿1,𝑿2,⋯,𝑿𝒏，其类别数已知(c)， $\color{red}{样本的标签未知}$ 。每个类别的类条件概率密度 $𝑝(𝑿|𝜔_𝑖,𝜃_𝑖)$ 函数形式已知 , $𝑃(𝜔_𝑖)$ 未知。
目标：1) 估计各类的分布参数 $𝜃_𝑖$ 和类先验分布 $𝑃(𝜔_𝑖) i =1,…,c$ 。令 $𝜃=𝜃_1,⋯,𝜃_𝑐$ , $𝑃=(𝑃(𝜔_1),⋯,𝑃(𝜔_𝑐))$ $\Theta=(𝜃,𝑃)$
混合概率密度函数为 $\color{red}{p(X)=\sum^c_{i=1}p(X|w_i,\theta_i)P(w_i)}$

3.2 求解方法

混合概率密度函数的最大似然估计求法：
其中情况一：混合参数已知，方法同第1节中最大似然估计所述，差别在于这个地方是所有类在一起计算，没有分而治之
情况二：需要用条件极值法进行求解

主要运用拉格朗日乘数方法进行推导求解

原则上，可通过
（2）(3) 式联立求解得到参数的最大似然估计。但得到闭式解困难，通常通过迭代算法，如 EM 算法，进行求解。下面将学习EM算法

4. 最大期望算法(Expectation Maximization)

4.1 基本概念

解决在概率模型中含有无法观测的隐含变量情况下的参数估计问题。
场景：数据不完整，有缺失特征；存在隐变量，如样本的类别未知。
核心思想：根据已有的、不完整数据，利用对数似然函数期望迭
代地估计分布函数的未知参数
基本知识凸函数(Convex Functions)
詹森/琴生不等式(Jensen's inequality)
完全数据与不完全数据

利用不完全数据Y去获取完全数据的分布

4.2 EM原理

目标是极大化观测数据 Y 关于参数 𝜽的对数似然函数

image.png

通过迭代逐步近似极大化 $L(\theta)$ ,第i次迭代后 $\theta$ 的估计值为 $\theta^{(i)}$

EM算法是通过不断地使下界极大化，去逼近求解“对数似然函数极大化”

EM具体流程

注意点：
参数初值：EM算法对初值敏感
迭代终止条件：当Q函数值变化小于一定值或者参数估计值变化小于一定值

4.3 EM在无监督参数估计中的应用

第3节中提及的无监督参数估计（即混合模型的参数估计），在 $P(w_i)$ 未知的情况，如何求解，可以用EM算法完成：

完整的算法流程如下所示：

4.5 EM对高斯混合模型的估计

高斯混合模型的概念

5. 高斯混合模型EM参数估计实现

实现过程请见 https://www.jianshu.com/p/2da84659ba83

最后编辑于：2019.10.19 20:36:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

模式识别课程(二)-参数估计：最大似然估计和贝叶斯估计

模式识别课程(二)-参数估计：最大似然估计和贝叶斯估计

目录

0. 前言

0. 基本概念

1. 最大似然估计(Maximum-Likelihood Estimation,ML)

2. 贝叶斯估计(Bayesian Estimation)

3. 无监督参数估计

4. 最大期望算法(Expectation Maximization,EM)

5. 高斯混合模型EM参数估计实现

前言

0. 基本概念

1.最大似然估计(Maximum-Likelihood Estimation,ML)

1.1基本假设

1.2基本原理

1.3微分求解

1.4示例

2. 贝叶斯估计

2.1基本思想

2.2 贝叶斯估计

2.3 贝叶斯学习

2.4 贝叶斯学习示例

2.5 贝叶斯估计总结

2.6 参数估计方法总结

3. 无监督参数估计

3.1 问题

3.2 求解方法

4. 最大期望算法(Expectation Maximization)

4.1 基本概念

4.2 EM原理

4.3 EM在无监督参数估计中的应用

4.5 EM对高斯混合模型的估计

5. 高斯混合模型EM参数估计实现

推荐阅读更多精彩内容