结构化概率模型为随机变量之间的直接作用提供了一个正式的建模框架。这种 方式大大减少了模型的参数个数以致于模型只需要更少的数据来进行有效的估计。 这些更小的模型大大减小了在模型存储、模型推断以及从模型中采样时的计算开销。
有向模型
有向图模型(directed graphical model)是一种结构化概率模型,也被称为信 念网络(belief network)或者贝叶斯网络(Bayesian network)2(Pearl, 1985)。
无向模型
有向图模型为我们提供了一种描述结构化概率模型的语言。而另一种常见的语 言则是无向模型(undirected Model),也被称为马尔可夫随机场(Markov random field, MRF)或者是马尔可夫网络(Markov network)(Kindermann, 1980)。
马尔可夫随机场用团定义图得联合概率分布
由于 Z 通常是由对所有可能的 x 状态的联合分布空间求和或者求积分得到的, 它通常是很难计算的。为了获得一个无向模型的归一化概率分布,模型的结构和函 数 ϕ 的定义通常需要设计为有助于高效地计算 Z。在深度学习中,Z 通常是难以处 理的。由于 Z 难以精确地计算出,我们只能使用一些近似的方法。这样的近似方法 是第十八章的主要内容。
基于能量的模型
E(x) 被称作是能量函数(energy function)。对所有的 z,exp(z) 都是正的,这保证 了没有一个能量函数会使得某一个状态 x 的概率为 0。我们可以完全自由地选择那 些能够简化学习过程的能量函数。如果我们直接学习各个团势能,我们需要利用约 束优化方法来任意地指定一些特定的最小概率值。学习能量函数的过程中,我们可 以采用无约束的优化方法5。基于能量的模型中的概率可以无限趋近于 0 但是永远达 不到 0。
可以看出极大似然估计即要最小化总能量
分离和d-分离
从图模型中采样
对于有向图
原始采样的基本思想是将图中的变量 xi 使用拓扑排序,使得对于所有 i 和 j,如 果 xi 是 xj 的一个父亲结点,则 j 大于 i。然后可以按此顺序对变量进行采样。换句 话说,我们可以首先采 x1 ∼ P(x1),然后采 x2 ∼ P(x2 | PaG(x2)),以此类推,直到 最后我们从 P(xn | PaG(xn)) 中采样。只要不难从每个条件分布 xi ∼ P(xi | PaG(xi)) 中采样,那么从整个模型中采样也是容易的。拓扑排序操作保证我们可以按照 式(16.1)中条件分布的顺序依次采样。如果没有拓扑排序,我们可能会在其父节点 可用之前试图对该变量进行抽样。
对于无向图
不幸的是,从无向模型中抽取样本是一个成本很高的多次迭代的过程。理论上 最简单的方法是Gibbs 采样(Gibbs Sampling)。假设我们在一个 n 维向量的随机 变量 x 上有一个图模型。我们迭代地访问每个变量 xi,在给定其他变量的条件下从 p(xi |x−i) 中抽样。由于图模型的分离性质,抽取 xi 时我们可以等价地仅对 xi 的邻 居条件化。不幸的是,在我们遍历图模型一次并采样所有 n 个变量之后,我们仍然 无法得到一个来自 p(x) 的客观样本。相反,我们必须重复该过程并使用它们邻居的 更新值对所有 n 个变量重新取样。在多次重复之后,该过程渐近地收敛到正确的目 标分布。
受限玻尔兹曼机