也谈MCMC方法与Gibbs抽样

原文传送门：也谈MCMC方法与Gibbs抽样

MCMC，即传说中的Markov Chain Mento Carlo方法。其主要用于统计推理中进行模拟抽样，尤其在贝叶斯推理中有着非常广泛的应用。如算法模型的后验参数估计问题，很多情况下其后验概率分布没有确定性的解析解，或者解析解计算起来非常复杂，便可以通过MCMC模拟抽样，根据大数定律，参数的期望便可以通过对抽样样本的求均值来评估。

山人第一次见到MCMC兄还是在研究僧阶段，那时候以Latent Direichlet Allocation(LDA)为代表的Blei先生的一系列主题模型算法还很火，甚至你还能看见Andrew Ng的身影。于是导师欣然的把其另一篇层次主题模型的论文，Hierarchical LDA(hLDA)甩给我们，拍着我们的肩膀，语重心长的说，好好干，会很有前景的。于是我的MCMC初体验是这样的：

What the hell? 于是直到现在还对MCMC念念不忘。好吧，是耿耿于怀。最近又看见Quora上有人讨论MCMC和Gibbs抽样，再看时，发现虽然有一两年未看，脑部神经元还是不停的工作，现在理解起来竟然清晰许多。 MCMC是Markov Chain和Mento Carlo两个概念的组合，我们不妨分而治之，先看看各自的含义。

I-Markov Chain

即马尔科夫链，这哥么大家肯定不会陌生，还记得Hidden Markov Model么（Baum-Welch算法会推导了么:( )马尔科夫链的一个重要属性就是无记忆性。其表示的随机过程，在一个状态空间里游走且未来的状态只与当前的状态有关，而与之前的状态均无关。这种无记忆性便称之为马尔科夫性。

p(xt+1|xt,xt−1...x1)=p(xt+1|xt)(1)

马尔科夫链是一种随机过程，其定义有主要有两点，即状态空间和转移概率矩阵。如下图所示，一个简单的马尔科夫链随机过程，包含三个状态：

其状态之间的转移概率矩阵如下：

假设在状态Πi时，你在Bull Market 状态，且当前概率分布为[0,1,0]。在下一个Πi+1状态时的概率分布为

Πi+1=Πi.P(2)

则结果为Πi+1=[.15.8.05]。如此类推，下一个状态分布则为：

Πi+1=Πi.P2(3)

如此下去，最终发现我们会得到一个稳定的状态，此时

Π=Π.P(4)

即状态分布变得稳定(Stationary)，不会再随着状态转移概率的变化而变化。且我们发现，即使我们的初始状态分布矩阵不是[0,1,0]而是另外一个值，如[0.4,0.3,0.3]时，最终经过多次转移，也会达到最终的稳定(Stationary)状态，且稳定状态的分布是一致的，即最终的Stationary状态与初始分布矩阵没有关系，只与状态转移矩阵有关。那末是不是所有的状态转移矩阵都能最终达到稳定状态呢？答案自然不是，还是需要马氏链定理的保证，简单说就是

如果一个非周期马氏链具有概率转移矩阵P，且它的任何两个状态都是联通的，那么如果limn−>∞Pnij=π(j)存在且仅与j有关，那么这样的一个稳定分布就是存在的。

这里还有一点山人刚开始时也是非常模糊。就是很多算法中提到，当经过了burn-in阶段，状态分布稳定以后开始取样计算概率分布，当时就想，既然都稳定了，π都保持不变了，取的样本不都一样么？其实这里所说的状态稳定是指满足了某一个概率分布，即稳定后抽样出的样本都是同分布的。而在稳定之前则可能不同的样本是产生自不同的概率分布。

II-Monte Carlo

说完了马尔科夫再来说说蒙特卡洛方法吧，其名子来源于摩纳哥的蒙特卡洛赌场，是一种通过模拟抽样求积分的方法。一个经典的应用便是计算圆周率。这个名叫“hit and miss"的实验过程为：假设有一个单位长度为1的正方形区域，再以正方形的中心为圆心，单位长度为半径画一个正方形的内切圆。有一个随机数发射器随机的往正方形区域里发射。当经过N多次以后，圆周率可以估算为(hawaii.edu)：π=4NhitNshot

大学微积分中我们学过常见函数求积分的方法，如I=∫∞θg(θ)p(θ)dθ，p是θ的概率密度函数，求其在g上的积分。但在实际应用中，函数g往往是不可积的，且θ可能是高纬向量，使得我们很难求得其解析解。在大数定律和中心极限定理的保证下，蒙特卡洛方法则通过模拟抽样的方法为求其近似解提供了一条途径。我们可以通过从概率密度函数p中抽样出θ，最终MC近似的解为：I′=∑Mi=1g(θi)。

应用到贝叶斯推理中，如果我们能够通过抽样的方式从参数变量的联合分布中抽取到足够多的样本数据，我们便可以通过贝叶斯参数估计等方法求得其近似值。但往往参数的联合分布各个变量并非独立，且很复杂。尤其如LDA等主题生成模型里，要对联合分布抽样几乎是不可能的。有么有可能通过某种控制变量法，对条件概率进行抽样，借用马尔科夫链中条件概率转移矩阵达到稳定状态后的概率分布就是其变量的联合分布下的样本点呢？

III-MCMC类方法

于是，为了避免构造一个复杂繁琐的联合分布函数来进行蒙特卡洛抽样，MCMC类方法神兵天降。通过构造一个状态转移概率矩阵，那末当其到达稳定状态时，分布便是所求的联合概率分布。而联合分布函数的样本点则是每一次状态转移时自然产生的。这么牛掰的想法当然不是山人想到的，一个叫着Metropolis的哥么在1953年研究粒子系统的平稳性质便提出来了。而目前我们常用的一个叫着Metropolis-Hastings算法便是在其基础上的一个改进。

1 细致平稳条件

我们在前面提到了，我们可以通过构造一个状态转移概率矩阵，使得其平稳状态下的概率分布就是我们想要的分布。但不是随意构造一个状态转移概率矩阵就能满足的。那需要什么样的条件呢？细致平稳条件就是这样一个充分条件。如果非周期马氏链的转移概率矩阵P和分布π(x)满足：

π(i)Pij=π(j)Pjiforalli,j(5)

则π(x)就是该马氏链的平稳分布。那自然不是所有的概率矩阵和分布都满足等式（5）中的条件，我们可以通过对马氏链进行一个小小的改造：

π(i)Pijα(i,j)=π(j)Pjiα(j,i)(6)

于是新得到的马氏链为P′(j,i)：

π(i)p(i,j)α(i,j)P′(i,j)=π(j)p(j,i)α(j,i)P′(j,i)(∗∗)(7)

而只要通过对称性，取α(i,j)为π(j)p(j,i)，取α(j,i)为π(i)p(i,j)即可。此处的α(.)称之为接受率。其可以理解为，在原来的马氏链上，从状态i以p(i,j)的概率跳转到状态j时，我们以α(i,j)的概率接受这个跳转。

一般的MCMC采样算法的接受率通过和一个Uniform[0,1]分布采样的值u作比较，如果接受率大于这个值，则接受这次转移，从i转移到j状态，反之则保持原i状态。但是我们在实际应用中使用这个方法时发现，很多情况下接受率普遍很低，导致马氏链状态转移缓慢，最终收敛的速度非常慢。为了解决这个问题，我们还是采用类似等式（6）的方法，分子分母的接受率同步增大。

α(x,y)α(y,x)=π(y)p(y,x)π(x)q(x,y)

我们可以把跳转之后的状态α(y,x)接受率为1，则我们可以得到下面的接受率公式(注意接受率取值范围只能是[0,1])：

α(i,j)=min{π(j)p(j,i)π(i)p(i,j),1}(8)

按照式（8）的接受率，便是我们的Metropolis-Hastings算法。

2 Gibbs抽样

当变量状态多，且维度比较高时，MH算法的接受率仍然差强人意。要是每次都接受该多好啊。那什么样的情况下，我从i到j时，每次都能接受呢？（即接受率为1）。最终发现，我们每次可以沿着垂直于某个变量维度的轴走。即通过迭代的方法，每一次只对一个变量进行采样。举一个二维空间的例子，假设一个概率分布p(x,y)，来看x坐标相同的两个点A(x1,y1)和B(x1,y2)，通过简单的联合概率和条件概率的关系我们可以得到：

p(x1,y1)p(y2|x1)=p(x1)p(y1|x1)p(y2|x1)(9)

p(x1,y2)p(y1|x1)=p(x1)p(y2|x1)p(y1|x1)(10)

很明显，等式(9),(10)右边是相等的，如(11)所示:

p(x1,y1)p(y2|x1)=p(x1,y2)p(y1|x1)(11)

下图给出了一个更直观的表示：

即，从A到B和从B到A的转移是直接满足细致平稳条件的。因此我们不需要等式(6)中的接受率来帮忙，即接受率为1.图中假设初始状态为A，则从A到下一个概率转移矩阵分别为：

Q(A−>B)=p(yB|x1)

Q(A−>C)=p(xC|y1)

Q(A−>D)=0(12)

因此类似于曼哈顿距离的方法，状态转移总是沿着横平竖直的街区进行。这边是Gibbs抽样算法的核心思想。下图给出了一个Gibbs抽样的直观图。

3 收敛条件的判断

我们都知道当概率状态转移稳定时，其分布便是所要求的联合概率分布。但我们不可能通过如等式(2),(3)的方法来每转换一步就求其概率分布，比较是否改变。主要原因有二，其一是不可把所有变量间的转移概率都找到，其二矩阵计算耗时耗力。常见的方法便是通过burn-in的方法，多跑几次。也有通过计算当前状态下的联合分布可能性函数，然后根据Autocorrelation Function(ACF)的变化速率来判断迭代是否收敛。

So long, and thanks for all the fish.

参考

[1]PRML读书会第十一章 Sampling Methods

[2]LDA-math-MCMC 和 Gibbs Sampling

[3]Burn-In is Unnecessary

[4]One Long Run in MCMC

[5]What-are-Markov-Chain-Monte-Carlo-methods-in-laymans-terms

[6]MCMCAlgorithmsBeta_Distribution

最后编辑于：2017.11.27 05:06:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

也谈MCMC方法与Gibbs抽样

推荐阅读更多精彩内容