这一部分没有参考资料,自己看书的时间也比较短,对于一些概念也比较模糊,参考了很多人的学习笔记,整理摘抄。。。。。。。
---------------------------------------------引用 作者:闪电随笔 https://www.jianshu.com/p/ffda16484509
1)概率模型是一种将学习任务归结于计算变量的概率分布的描述框架,概率模型的学习即基于训练样本来估计变量的分布。
2)概率图模型是一类用图来表达变量相关关系的概率模型
3)概率图模型根据边的性质不同,大致可分为有向图模型和无向图模型
4)隐马尔可夫模型是结构最简单的一种著名的有向图模型,其每一个节点代表系统所处的状态,且该状态只与其前置状态有关
5)马尔可夫随机场是一种著名的无向图模型,其用图模型来表示属性之间的相互独立性,并且根据马尔可夫性,属性的联合概率可由极大团的势函数的乘积获得
6)条件随机场可以被看成是给定观测值的马尔可夫随机场,其将势函数引入特征函数中来对条件概率进行计算
7)基于概率图模型定义的联合概率分布,我们需要对其中的目标变量或者条件分布进行推断,根据推断方法的不同可分为精确推断,以及近似推断
8)精确推断包括利用乘法对加法的分配律,把多个变量的积的求和问题转换为对部分变量交替进行求积和求和的问题的变量消去法,以及将变量消去法中的求和操作看作一个消息传递的过程,较好的解决了求解多个边际分布时的重复计算问题的信念传播法
9)近似推断包括采样以及变分推断两种方法,前者是通过采样来对目标分布的期望进行近似,后者是通过将目标变量的分布分解为更为简单或者结构更好的分布的乘积来进行近似
10)话题模型是一个具体的用在自然语言处理上的有向图模型,通过使用极大似然估计法以及各种近似推断方法来获得训练样本集的模型分布,常用狄利克雷分布
隐马尔科夫链模型
概率图模型是一类用图来表达变量相关关系的概率模型,它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系。第一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网;第二类使用无向图表示变量间的关系,称为无向图模型或马尔可夫网。
什么是马尔可夫过程
《概率论与数理统计》P319
过程(或系统)在时刻t0所处的状态为已知的条件下,过程在时刻t>t0所处状态的条件分布与过程在时刻t0之前所处的状态无关。通俗讲,就是已经知道过程现在的条件下,其将来不依赖过去。
时间和状态都是离散的马尔可夫过程称为马尔可夫链
下面是恶补概率论与数理统计的内容:
条件概率
为马氏链在时刻m处于ai条件下,在时刻m+n转移到状态aj的转移概率,由于链在时刻m从任何一个状态a出发,到另一时刻m+n,必然转移到a1,a2……诸状态中的某一个,所以
当转移概率仅与i,j及时间间距n有关时,把它记为Pij(n),即
并成此转移概率具有平稳性,也称此链为齐次或时齐的。
隐马尔可夫模型(Hidden Markov Model,简称HMM)是结构最简单的动态贝叶斯网(dynamic Bayesian network),这是一种著名的有向图模型,主要用于时序数据建模,在语音识别、自然语言处理等领域有广泛应用。
隐马尔可夫模型中的变量可分为两组。第一组是状态变量{y1,y2,…,yn},其中,yi∈Y表示第i时刻的系统状态。通常假定状态变量是隐藏的、不可被观测的,因此状态变量亦称隐变量(hidden variable)。第二组是观测变量{x1,x2,…,xn},其中,xi∈X表示第i时刻的观测值。在隐马尔可夫模型中,系统通常在多个状态{s1,s2,…,sN}之间转换。
在任一时刻,观测变量的取值仅依赖于状态变量,即xt由yt确定,与其他状态变量及观测变量的取值无关。同时,t时刻的状态yt仅依赖于
t-1时刻的状态yt-1,与其余n-2个状态无关。这就是所谓的“马尔可夫链”(Markov chain),即:系统下一时刻的状态仅由当前状态决定,不依赖于以往的任何状态。
基于上述变量之间的依赖关系,隐马尔可夫模型中所有变量的联合概率分布:
当确定了一个HMM模型的三个参数后,便按照下面的规则来生成观测值序列:
(1)用初始状态概率π 算出初始状态 y0
(2)用 B 算出当前状态的观测值 xt
(3)用 A 算出下一个状态 yt+1
1.如何根据以往的观测序列求解当前时刻最有可能的观测值,显式求解P(x|λ)
2.根据观测信号来推断可能的撞他序列
3.如何根据训练样本学得最优的模型参数
14.2 马尔可夫随机场
马尔可夫随机场(Markov Random Field)是一种典型的马尔可夫网,即使用无向边来表达变量间的依赖关系。
在马尔可夫随机场中,对于关系图中的一个子集,若任意两结点间都有边连接,则称该子集为一个团;若再加一个结点便不能形成团,则称该子集为极大团。
什么是随机场
在概率论中, 由样本空间Ω = {0, 1, …, G − 1}n取样构成的随机变量Xi所组成的S = {X1, …, Xn}。若对所有的ω∈Ω下式均成立,则称π为一个随机场。
π(ω) > 0.
当给每一个位置中按照某种分布随机赋予相空间的一个值之后,其全体就叫做随机场。我们不妨拿种地来打个比方。其中有两个概念:位置(site),相空间(phase space)。“位置”好比是一亩亩农田;“相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个“位置”,赋予相空间里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情
引入团概念的原因是什么呢?
其实很简单,就是为了能更方便的计算变量x的联合概率。根据马尔可夫特性,每个变量只与其邻接结点相关,那么多个变量之间的联合概率分布能基于团分解为多个因子的乘积。具体来说,对于 n 个变量 x = {x1, x2, ..., xn},所有团构成的集合为 C,与团 Q 属于 C 对应的变量集合记为 xQ,则联合概率 P(x) 定义为:
对于条件独立性,马尔可夫随机场通过分离集来实现条件独立,若A结点集必须经过C结点集才能到达B结点集,则称C为分离集。
基于分离集的概念,得到了MRF的三个性质:
全局马尔可夫性:给定两个变量子集的分离集,则这两个变量子集条件独立。
局部马尔可夫性:给定某变量的邻接变量,则该变量与其它变量条件独立。
成对马尔可夫性:给定所有其他变量,两个非邻接变量条件独立。
书中给了一个例子对势函数进行了讲解:
14.3 条件随机场(CRF)
条件随机场是一种判别式无向图模型,生成式模型直接对联合分布进行建模,判别式模型对条件分布进行建模。前边介绍的隐马尔可夫模型和马尔可夫随机场都是“生成式”模型,。而条件随机场是“判别式”模型,即给定观测数据{x1, x2, ..., xn}以及对应的标记数据{y1, y2, ..., yn},构建条件概率模型 P( y | x )。它可以被看成是给定观测值的马尔可夫随机场。
标记变量y可以是结构型变量,其分量之间具有某种相关性
书中举出的例子也是对上一概念的说明,标记变量之间条件独立
与马尔可夫随机场类似,条件随机场也使用了合适的“势函数”来计算所要求的条件概率,只不过条件随机场是将势函数引入特征函数(feature function)中来进行计算的。
什么是特征函数?
特征函数通常是实值函数,以刻画数据的一些很可能成立或期望成立的经验特征。
借鉴别人例子(统计学习方法中也出现了同样的第二版97页,关于最大熵模型中的特征函数,说的不是很清楚,就引入)
可以引入特征函数
经验上来说,第 i 个观测值为“knock”时,其相应的标记 y_i 和 y_i+1 很可能分别为 [V] 和 [P]
引入状态特征函数
条件概率定义为:
以词性标注为例,如何判断给出的一个标注序列靠谱不靠谱呢?
转移特征函数主要判定两个相邻的标注是否合理,例如:动词+动词显然语法不通;状态特征函数则判定观测值与对应的标注是否合理,例如: ly结尾的词–>副词较合理。
因此我们可以定义一个特征函数集合,用这个特征函数集合来为一个标注序列打分,并据此选出最靠谱的标注序列。也就是说,每一个特征函数(对应一种规则)都可以用来为一个标注序列评分,把集合中所有特征函数对同一个标注序列的评分综合起来,就是这个标注序列最终的评分值。可以看出:特征函数是一些经验的特性(一般特征函数的选择需要有对该领域比较深厚的知识来确定特征函数是什么类型)。
14.4 学习与判断
其中联合概率 可基于概率图模型获得,因此,推断问题的关键就是如何高效的计算边际分布,即上式的分母部分。
概率图模型的推断方法大致可以分为两类:第一类是精确推断方法,希望能计算出目标变量的边际分布或条件分布的精确值;遗憾的是,一般情况下,此类算法的计算复杂度随着极大团数量的增长呈指数增长,适用范围有限。第二类是近似推断方法,希望在较低的时间复杂度下获得原问题的近似解;此类方法在现实任务中更常见。
14.4.1 变量消去
变量消去是精确推断方法
变量消去算法通过利用乘法对加法的分配律,把多个变量的积的求和问题转换为对部分变量交替进行求积和求和的问题。这种转换使得每次的求和和求积运算限制在局部,仅与部分变量有关,从而简化了计算。
变量消去法有一个明显的缺点,那就是若需计算多个边际概率,会造成大量冗余计算。下一小节的信念传播算法就很好的解决了这个问题。
14.2.2 信念传播
信念传播算法将变量消去法中的求和操作看作一个消息传递的过程,较好的解决了求解多个边际分布时的重复计算问题。
在变量消去算法的计算过程中,通过求和操作消去变量的过程 mij(xj),我们可以看作是从 xi 向 xj 传递消息的过程。
通过观测不难发现,每次消息的传递操作仅与变量 x 的邻接结点直接相关,换言之,消息传递相关的计算被限制在图的局部进行。
在信念传播算法中,一个结点仅在接收到来自其它所有结点的消息后才能向下一个结点传递信息,且结点的边际分布正比于它所接收的消息的乘积。
若图结构中没有环,则信念传播算法经过两个步骤即可完成所有消息传递,进而能计算所有变量上的边际分布:
1.指定一个根结点,从所有叶结点向根结点传递信息,直到所有根结点收到所有邻接结点的信息
2.从根结点向叶结点传递消息,直到所有叶结点都接收到消息
例如在下边的图结构中,我们令 x1 为根结点,则 x4 与 x5 为叶结点,则以上两步的消息传递过程如下。此时图的每条边上都有方向不同的两条信息,基于这些消息以及上一小节的公式,即可得到所有变量的边际概率
14.5 近似推断
精确推断方法通常需要很大的计算开销,因此在现实应用中近似推断方法更为常用。近似推断方法大致可分为两大类:
第一类是采样(sampling)通过使用随机化方法完成近似
第二类是使用确定性近似完成近似推断,典型代表为变分推断(variational inference)
14.5.1 MCMC采样
概率图模型中最常用的采用技术是马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,简称MCMC)方法。
简单来说,若已知变量 x 的概率密度函数 p(x),那么我要要求 y = f(x) 的期望时,我们就不需要去计算出条件概率 P(y|x) 了,只需要计算 f(x) 在多个样本 {x1, x2, x3, ..., xn}上的 f(xi) 的均值,或者在一定范围取值内的积分。根据大数定理,这种通过大量采样的办法就能获得较高的近似精度。
MCMC方法就是概率图模型中最常用的采样技术。对高维多元变量 x,MCMC采样通过构造“平稳分布为 p 的马尔可夫链”来产生样本。
14.5.2 变分推断
变分推断通过使用已知简单分布来逼近所需推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优、但具有确定解的近似后验分布。
变分推断使用的近似分布需要具有良好的数值性质,通常是基于连续型变量的概率密度函数来刻画的。
假设有 N 个可观测变量 {x1, x2, ..., xN},这 N 个变量均依赖于其它变量 z,且 x 与 z 均服从分布参数 θ。那么一般来说,我们根据该概率图模型的推断与学习任务主要是由观测到的变量 x 来估计隐变量 z 和分布参数变量 θ,即求解 p( z | x,θ ) 和 θ
通常我们可以使用极大似然函数和 EM 算法来进行推断,但是在现实任务中,推断的过程可能因为 z 模型复杂而难以进行。此时可借助变分推断,假设隐变量 z 服从分布:q(z) = q1(z1) * q2(z2) * ... * qM(zM)
我们通过使用相对简单或结构更好的的分布 q 去近似 z 的后验分布 p( z | x,θ ) 即能在节省计算开销的情况下得到所要概率分布
14.6 话题模型
话题模型是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用。
隐狄利克雷模型(Latent Dirichlet Allocation,简称LDA)是话题模型的典型代表。
基本概念
按照由小到大的顺序,话题模型涉及到的以下几个概念:
词(word):待处理数据的基本离散单元
文档(document):待处理的数据对象,它由一组词组成
话题(topic):话题表示一个概念,具体表示为一系列与该概念相关的词,以及它们在该概念下出现的概率
词袋(bag-of-words):文档的表示方式,将文档中的词不计顺序的存储成一个词的集合
比如在文本处理领域,LDA算法处理的对象是一篇篇文章,不妨假设数据集中包含 K 个话题,T篇文档,文档中的词来自于一个包含 N 个词的词典。文档以词袋的形式表示 W = {w1, w2, ..., wt},wi表示第 i 篇文档中 N 个词分别的词频;同理 K 个 N 维向量 B = {b1, b2, ..., bk} 用来表示 K 个话题
模型介绍
在现实任务中,我们可以通过统计文档中的词来获得词频向量 W,但我们通常不清楚这组文档都谈论了哪些话题,也不知道每篇文档与哪些话题有关。
狄利克雷模型以生成式模型的角度来看待文档和话题,认为文档的话题分布满足参数为 α 的 K 维狄利克雷分布,话题词频则依赖于参数为 η 的 N 维狄利克雷分布
通过 α 和 η,我们可以分别得到文档的话题分布 Θt 以及话题词频 Bk,由此可得到话题指派 z_tn (z_tn 表示第 t 个文档的第 n 个词所属于的话题分布)以及最终的文档词频 wt
实际上,我们唯一能观测到的变量只有 wt,但是通过极大似然估计以及变分法来进行近似推断,我们能获得参数 α 和 η 的取值。
LDA的参数估计(吉布斯采样)
在LDA最初提出的时候,人们使用EM算法进行求解。
后来人们普遍开始使用较为简单的Gibbs Sampling(吉布斯采样),具体过程如下:
1.首先对所有文档中的所有词遍历一遍,为其都随机分配一个主题,即zm,n=k~Mult(1/K),其中m表示第m篇文档,n表示文档中的第n个词,k表示主题,K表示主题的总数,之后将对应的n(k)m+1, nm+1, n(t)k+1, nk+1, 他们分别表示在m文档中k主题出现的次数,m文档中主题数量的和??(可重复的,所以应该就是文档中词的个数,不变的量)??,k主题对应的t词的次数,k主题对应的总词数(n(k)m等等初始化为0)。
2.之后对下述操作进行重复迭代。
对所有文档中的所有词进行遍历,假如当前文档m的词t对应主题为k,则n(k)m-1, nm-1, n(t)k-1, nk-1, 即先拿出当前词,之后根据LDA中topic sample的概率分布采样出新主题,在对应的n(k)m, nm, n(t)k, nk上分别+1。
迭代完成后输出主题-词参数矩阵φ和文档-主题矩阵θ
从这里看出,gibbs采样方法求解 LDA 最重要的是条件概率p(zi | z-i,w)的计算上。
下文对狄利克雷分布进行了通俗的讲解:
https://blog.csdn.net/guleileo/article/details/80971601
-----------------------------------所用到一些参考的定义---------------------------------------------------------------------
1)狄利克雷函数
狄利克雷函数(英语:dirichlet function)是一个定义在实数范围上、值域不连续的函数。
2)边际分布(marginal distribution)
边际分布是指对无关变量求和或积分的结果。例如对于 (x, y) 构成的联合概率分布中,对于 x 的边际分布为:
P(x) = P{ X < x } = P{ X < x, Y < 正无穷 }
3)大数定理
大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。
参考 CSDN博主「MLcongcongAI」的原创文章 原文链接:https://blog.csdn.net/MLcongcongAI/article/details/88137005
和https://blog.csdn.net/weixin_34261739/article/details/87444627