4. 半监督学习的风险：未标记数据如何降低生成分类器的性能

正如本书其他章节所描述的那样，经验和理论的结果通常对生成分类器的半监督学习有利。然而，文献也显示存在半监督学习不能产生好的生成式分类器的情况。我们并不是简单地关注那些产生高分类误差的分类器——这在监督学习中也是可能发生的。我们关注的是：通常情况下，我们最好只丢弃未标记的数据并使用监督方法，而不是采用半监督方法。因此我们担心额外的非标记数据反而降低了分类器表现的尴尬情况。

这怎么可能呢？一般我们不会认为丢弃数据更好；我们怎么能理解半监督学习的这一面呢？本章我们聚焦于半监督学习中模型拟合误差的影响，同时展示模型误差是怎么导致性能下降的。

4.1 非标记数据提高还是降低分类器性能？

也许我们有理由相信任何样本数量的增加大体上都会提高分类器的性能（标记的或非标记的）：数据越多，越好。事实上，现有文献提出了将正值归因于未标记数据的实证结果；其他章节则给出了其中一些结果。O’Neill 宣称 “未分类观测肯定不应被抛弃”（O’Neill, 1978）似乎被理论研究证实了，最著名的是Castelli（1994）、Castelli 和Cover（1995、1996）以及 Ratsaby 和 Venkatesh（1995）。

这些先前的理论研究的要点就是这一点。假设样本 $(x_i,y_i)$ 是根据分布 $p(X_v,Y_v)$ 分布的随机化变量 $X_v$ 和 $Y_v$ 的实例。假设我们学习一个参数模型 $p(X_v,Y_v|\theta)$ ，对于 $\theta$ 的某个值使得 $p(X_v,Y_v|\theta)$ 等于 $p(X_v,Y_v)$ ——也就是说，“模型是正确的”，在这个意义上它可以精确地表示 $p(X_v,Y_v)$ 。然后，随着越来越多的数据被收集（标记或未标记），可以确保一个分类错误的预期减少。此外，标记数据在减少分类误差方面比未标记数据更有效。在这些乐观的结果中，只要有可能，就可以使用未标记的数据。然而，对当前经验结果的更详细分析确实揭示了未标记数据的一些令人费解的方面。例如，Shahshahani和Landgrebe（1994）报告了一些实验，其中未标记的数据降低了带有高斯变量的朴素贝叶斯分类器的性能。他们将这种情况归因于与建模假设的偏差，例如离群值和“未知类的样本”——他们甚至建议应小心使用未标记的样本，并且仅当标记的数据单独产生较差的分类器时使用。另一个代表性的例子是 Nigam 等人的工作（2000）关于文本分类，分类程序有时显示性能下降。他们提出了几个可能的困难来源：学习算法中的数值问题，特征空间中的自然簇与实际标签之间的不匹配。其他例子很容易找到。Baluja（1999）使用朴素贝叶斯和树增强朴素贝叶斯（TAN）分类器（Friedman et al.，1997）检测图像中的面，但也存在未标记数据降低性能的情况。Bruce（2001）使用标记和未标记的数据学习贝叶斯网络分类器，从朴素贝叶斯分类器到完全连接的网络；朴素贝叶斯分类器显示出较差的分类性能，事实上，随着使用更多未标记的数据性能降低了（更复杂的网络也显示性能下降，因为添加了未标记的样本）。最后一个例子：Grandvalet和Bengio（2004）描述了将异常值添加到高斯模型中的实验，导致生成分类器在未标记数据的情况下性能下降。

图 4.1 显示了许多实验，证实了这一有趣证据。它们都涉及分类变量的二元分类；在所有这些属性中， $X_v$ 实际上是一个包含多个属性 $\text{[math]}$ $X_{vi}$ 的向量。在所有的试验中生成式分类器均是利用 EM 算法的最大似然学习的（第 2,3 章）。图 4.1（a）显示随着未标记数据量的增加而学习的朴素贝叶斯分类器的性能（对于固定数量的标记数据），其中数据分布遵守朴素贝叶斯假设。也就是说，这些数据是由随机生成的统计模型生成的，这些模型符合朴素贝叶斯分类器的独立性假设。在朴素贝叶斯模型中，所有特征 $X_v$ 在给定类别 $Y_v$ 时相互独立： $p(X_v,Y_v)=p(Y_v)\prod p(X_{vi})$ 。结果简单：数据越多，模型性能越好。图 4.1（b）展示了一幅完全不同的画面。这里学习了一系列的朴素贝叶斯分类器，数据根据 TAN 假设分布：每个属性直接依赖于类，最多依赖于另一个属性-这些属性形成依赖关系的“树”，因此名称树增强朴素贝叶斯（Friedman et al.，1997）。也就是说，在图4.1（b）中，“模型不正确”。图4.1（b）中的图表表明，随着未标记数据数量的增加，性能下降。

图4.1（c）描述了一个更复杂的场景。再次，根据 $TAN$ （树增强朴素贝叶斯）假设，利用分布的数据学习了一系列朴素贝叶斯分类器，因此“模型是错误的”。请注意，其中两个图显示错误减少的趋势（随着未标记样本的数量增加），而另一个图显示错误增加的趋势。在这里，未标记的数据可以在存在一些标记的样本时提高性能，但在添加到更多标记的样本时，未标记的数据会降低性能。Cozman和Cohen（2002）描述了一组更大的人工数据实验。

图4.1（d）显示了使用成人分类问题的不同标记和未标记数据集组合学习朴素贝叶斯分类器的结果（使用UCI存储库2中提供的培训和测试数据集）。我们发现，当标记的数据集很小（30个标记的数据）时，添加未标记的数据可以改善分类，但随着标记的数据集变大，性能会降低。因此，这个实际数据集的属性导致类似于图4.1（c）的行为。

最后，图4.1（e）和4.1（f）显示了使用基准数据中的数据集8学习朴素贝叶斯和 $TAN$ （树增强朴素贝叶斯）分类器的结果（第21章）。这两个图显示的趋势与前一个图中显示的趋势相似。

图4.1（a）naive bayes分类器从根据朴素贝叶斯假设分布的数据中学习，具有10个属性；具有2到4个值的属性。（b）朴素贝叶斯分类器从根据具有10个属性的tan假设分布的数据中学习。（c）朴素贝叶斯分类器从根据具有49个属性的tan假设分布的数据中学习。（d）从成人数据库生成的朴素贝叶斯分类器。（e）从数据集secstr生成的朴素贝叶斯分类器，基准数据（第21章）。（f）数据集secstr生成的 TAN 分类器，基准数据（第21章）。在所有的图中，点汇总了每个分类器对测试数据的十次运行（条形图覆盖了30%到70%的数据）。

4.2 理解非标记数据：渐近偏差

我们可以将前一节总结如下。首先，当所学的生成分类器基于“正确”模型时，可以保证从未标记的数据中获益。第二，有强有力的经验证据表明，未标记的数据可能会降低分类器的性能。当为特定分类器采用的建模假设与生成数据的分布特征不匹配时，可能会出现性能下降。这是令人不安的，因为通常很难（如果不是不可能的话）事先保证某个特定的统计模型是“正确的”模型。

了解半监督学习的变数的关键是研究渐近偏差。在本节中，我们提出了一个直观的讨论，将更正式的分析留给第4.3节。我们在这里和本章的其余部分的论点集中在通过最大似然方法学习的生成分类器上。由于我们的大多数论点是渐进的，同样的原理也适用于最大后验估计和其他贝叶斯估计，因为它们的渐进行为由似然函数控制（Degroot，1970）。

争论的要点如下。正如我们在第4.3节中正式展示的，对于同一分类器用标记数据产生的最大似然估计量的渐近偏差可以不同于用未标记数据产生的最大似然估计量的渐近偏差。然后假设一个人学习了一个带有合理数量标记数据的分类器。所得到的分类器可能相对接近其渐近极限，从而产生一些分类误差。现在假设一个人获取了大量未标记的数据，并用所有可用的数据学习相同的分类器。现在，分类器可能趋向于非标记数据的渐近极限，并且这个限制分类器的性能可能比第一个“标记”限制分类器的性能更差。最终的结果是，通过添加大量未标记的样本，可以生成一个更差的分类器。

无论多么令人费解，这种情况甚至可以在看似无辜的情况下找到，并且不需要复杂的建模错误。我们现在讨论一个简单的示例，其中未标记的数据会降低生成分类器的性能；这个（虚构的）示例可能有助于读者理解未标记数据有时产生的意外影响。

考虑下面的分类问题。我们有兴趣根据两个特征预测婴儿在怀孕20周时的性别（G = Boy 或 G = Girl）：母亲在怀孕前三个月是否想吃巧克力（Ch = Yes 或Ch = No），以及母亲体重增加是否大于或小于15磅（W = More 或 W = Less）。假设 W 和 G 在 Ch 上是独立的，也就是说，域中的直接依赖关系用图 $G\rightarrow Ch \rightarrow W$ 表示，从而导致联合分布的分解： $P(G,Ch,W)=P(G)P(Ch|G)P(W|Ch)$ 。同时假设数据是根据

$P(G=boy) = 0.5$ ,

$P(Ch=No|G=Boy)=0.1$ ,

$P(Ch=No|G=Girl)=0.8$ ,

$P(W=Less|Ch=No)=0.7$ ,

$P(W=Less|Ch=Yes)=0.2$ .

注意，根据上述分布，我们可以计算 W 给定 G 的概率，得到

$P(W=Less|G=Boy)=0.25$ ,

$P(W=Less|G=Girl)=0.6$ .

为了在给定体重增加和巧克力渴望将婴儿的性别分为两类，我们计算了g给定w和ch的后验概率（根据上述独立性，仅取决于ch）：

$P(G=Girl|Ch=No)=0.89$ ,

$P(G=Boy|Ch=No)=0.11$ ,

$P(G=Girl|Ch=Yes)=0.18$ ,

$P(G=Boy|Ch=Yes)=0.82$ .

根据后验概率，最优分类规则（下一节讨论的贝叶斯规则）是

if Ch = No, choose G = Girl; if Ch = Yes, choose G = Boy。

这个问题的Bayes错误率（即Bayes规则下的错误概率）可以很容易地计算出来，并且发现大约为15%。

假设我们错误地为这个问题假设了一个朴素的贝叶斯模型；也就是说，我们假设依赖关系是由图 $Ch\leftarrow G\rightarrow W$ 表示的。因此，我们错误地假设，给定性别，体重增加与巧克力渴求无关；因此，我们错误地假设，联合概率分布的因式分解可以写成 $P(G,Ch,W)=P(G)P(Ch|G)P(W|G)$ 。假设一个朋友给了我们 $P(Ch|G)$ 的“真”值，所以我们不需要估计这些量。我们希望使用最大似然技术估计 $P(G)$ 和 $P(W|G)$ 。

在只有标签数据可用的情况下，估计量是通过相对频率获得的，零偏差和方差与数据库的大小成反比。因此，即使是一个相对较小的数据库也会产生对概率值的极好估计。 $P(G)$ 的估计值很可能接近0.5；同样， $P(W=Less|G=Girl)$ 的估计值将接近0.6， $P(W=Less|G=Boy)$ 的估计值将接近0.25。利用这些估计参数和假设的联合概率分布分解，G的后验概率可能接近

表 4.1

假设我们采用这些估计值，并使用G的最大后验概率值对输入的观测值进行分类。即使来自“真”后验概率的偏差不为零，这将产生相同的最佳贝叶斯规则4.1；也就是说，“标记”分类器很可能产生最小分类误差。

现在假设没有标记的数据是可用的。随着越来越多的未标记样本的收集，标记样本的数量与样本总数之间的比率变为零。在第4.3节中，我们展示了如何计算这种情况下的渐近估计。在这种情况下，以闭合形式进行的计算得出以下渐近估计： $P(G=Boy)=0.5,P(W=Less|G=Girl)=0.78,P(W=Less|G=boy)=0.07$ 。因此，G的一个后验概率趋向于

表 4.2

在这里，我们看到，在这种情况下，预测已经从最佳状态{Ch =Yes,W = Less}改变了；我们预测 $\{G=Girl \}$ 而不是 $\{G=Boy \}$ 。我们可以轻松地获得期望误差率为 22%，增加了 7%。

发生什么事了？标记的数据将我们带到一个特定的渐近极限，而未标记的数据将我们带到一个明显的极限。在第4.3节中，我们将看到，在收集未标记的样本时，这种转换是平滑的。由于后一个限值（从分类的角度来看）比前一个限值更差，因此逐渐添加未标记样本会降低性能。

再次考虑图4.1（a）。这里的图表说明了“模型正确”的情况：标记和未标记的数据导致相同的渐近估计。图4.1中的其他图说明了“模型不正确”的情况。在这些情况下，随着越来越多的未标记数据可用，渐进估计倾向于“未标记”分类器-根据标记数据的数量，图从高于或低于此“未标记”限值开始。

4.3 生成半监督学习的渐近分析

我们首先在本节中收集一些假设，以重复前面章节中已经提到的定义为代价。这里的目标是对特征 $X_v$ 的向量进行分类。 $X_v$ 的每个实例 $x$ 是一个样本。存在一个类变量 $Y_v$ ，它在一组标签中取值。为了简化讨论，我们假设 $Y_v$ 是一个取值为 -1 和 +1 的二值变量。如果我们确切地知道联合分布 $p(X_v,Y_v)$ ，优化规则会是选择一个有最大后验概率的标签；这就是贝叶斯规则，它产生的分类误差最小，称为贝叶斯误差（Devroye等人，1996年）。使用数据库中的 $n$ 个独立样本学习分类器；有 $l$ 个标记样本和 $u$ 个非标记样本（ $n = l+u$ ），在不丧失一般性的情况下，我们假设样品是按序先来先标记的。我们假设一个样本有隐藏其标签的概率（ $1 - \lambda$ ）（相同的分布 $p(X_v|Y_v)$ 生成标记的样本和未标记的样本）。

考虑采用生成模型作为联合分布 $p(X_v,Y_v)$ 的表示。假设一个使用参数 $\theta$ 的参数化表示 $p(X_v,Y_v|\theta)$ ，以及一个包含可以产生估计 $\hat\theta$ 的训练样本的数据库。所有样本 $x_i$ 都被收集在由 $X$ 表示的数据库中，所有样本 $y_i$ 都被收集在由 $Y$ 表示的数据库中。我们思考 "插件“ 分类：假设 $p(Y_v|X_v,\hat\theta)$ 是 $Y_v$ 的正确后验密度，计算最优规则。

在本章中，我们用 $p(\cdot)$ 表示生成数据的分布/密度，以及用 $P(\cdot|\theta)$ 学习分布的统计模型。对这些分布/密度进行渐进分析需要几个平滑度和可测度性假设，并贯穿始终。通常用于生成估计的两个原则是最大似然性和最大化后验损失（Degroot，1970年）；使用这些原则计算估计值通常需要迭代方法，其中最流行的是EM算法（Dempster等人，1977）。生成模型非常适合最大似然法的半监督学习，因为似然法直接受未标记数据的影响，而判别模型相反，其中相关似然法不受未标记数据的影响（Zhang和Oles，2000年）。

我们认为，估计 $\hat\theta$ 是通过最大化似然 $L(\theta)=\prod\nolimits_{i=1}^l p(x_i,y_i|\theta)\prod\nolimits_{j=l+1}^n p(x_j|\theta)$ 产生的。当样本是未标记的时候，似然函数记为一个混合 $p(X_v|Y_v=+1,\theta)p(Y_v=+1|\theta)+p(X_v|Y_v=-1,\theta)p(Y_v=-1|\theta)$ ；我们假设这些混合是可识别的（Redner和Walker，1984）。

我们使用以下已知结果（Berk, 1966; Huber, 1967; White, 1982）。考虑一个参数模型 $p(Z|\theta)$ 和一系列最大似然估计值 $\hat\theta_n$ ，通过最大化 $\sum\nolimits_{i=1}^n log(z_i|\theta)$ 获得，随着独立样本 $z_i$ 数 $n$ 的增加，所有样本均按 $p(Z)$ 均匀分布。然后 $\hat\theta_n\rightarrow \theta^*$ 当 $n\rightarrow \infty$ 对于 $\theta^*$ 的开领域中的 $\theta$ ，这儿 $\theta^*$ 最大化 $E_{p(Z)}[log p(Z|\theta)]$ 。如果 $\theta^*$ 是参数空间的内部，那么估计是渐进高斯的。扩展上述半监督学习的结果我们有：

定理 4.1 最大似然估计的极限值 $\theta^*$ 为：

$arg \mathop{}_{\theta}^{max} (\lambda E_{p(X_v,Y_v)}[logp(X_v,Y_v|\theta)]+(1-\lambda)E_{p(X_v,Y_v)}[logp(X_v|\theta)])$ （4.2）

证明：在半监督学习中，样本是概率为 $\lambda$ 的 $(X_v,Y_v)$ 和概率为 $(1-\lambda)$ 的 $X_v$ 的实例。用 $\tilde{Y} _v$ 表示一个随机变量，假设 $\tilde{Y} _v$ 值与“未标记”值 $0$ 相同。我们有 $p(\tilde{Y} _v \neq 0)=\lambda$ 。实际上观测到的样本是 $(X_v,\tilde{Y} _v)$ 的实例，因此

$\tilde{p} =(X_v,\tilde{Y} _v=y)=(\lambda p(X_v,Y_v=y))^{I_{\{\tilde{Y} _v \neq 0 \} }(y)}((1-\lambda)p(X_v))^{I_{\{\tilde{Y} _v = 0 \}}(y)}$ ，

这儿 $p(X_v)$ 是一个混合密度。相应地， $(X_v,\tilde{Y} _v)$ 采用的参数模型形式相同：

$\tilde{p} =(X_v,\tilde{Y} _v=y|\theta)=(\lambda p(X_v,Y_v=y|\theta))^{I_{\{\tilde{Y} _v \neq 0 \} }(y)}((1-\lambda)p(X_v|\theta))^{I_{\{\tilde{Y} _v = 0 \} }(y)}$ 。

最大化 $E_{(\tilde{p} (X_v,\tilde{Y} _v)}[log\tilde{p} (X_v,\tilde{Y} _v|\theta)]$ 的值 $\theta^*$ 为

$arg\mathop{}_{\theta}^{max}E_{\tilde{p}(X_v,\tilde{Y}_v) }[I_{\{\tilde{Y}\neq0 \} }(\tilde{Y} _v)(log\lambda p(X_v,Y_v|\theta)) +I_{\{\tilde{Y}=0 \} }(\tilde{Y} _v)(log(1-\lambda )p(X_v|\theta)) ]$ 。

因此 $\theta^*$ 最大化

$\beta + E_{\tilde{p}(X_v,\tilde{Y}_v) }[I_{\{\tilde{Y}\neq0 \} }(\tilde{Y} _v)(log\lambda p(X_v,Y_v|\theta))] +E_{\tilde{p}(X_v,\tilde{Y}_v) }[I_{\{\tilde{Y}=0 \} }(\tilde{Y} _v)(logp(X_v|\theta))]$ ，这儿 $\beta = \lambda log(\lambda)+(1-\lambda)log(1-\lambda)$ 。因为 $\beta$ 不依赖 $\theta$ ，我们只需要最大化后两项，其等于 $\lambda E_{\tilde{p}(X_v,\tilde{Y}_v ) }[log p(X_v,Y_v|\theta)|\tilde{Y} _v\neq 0] + (1- \lambda)E_{\tilde{p}(X_v,\tilde{Y}_v ) }[log p(X_v|\theta)|\tilde{Y} _v= 0]$ 。因为我们有 $\tilde{p} (X_v,\tilde{Y} _v|\tilde{Y} _v \neq 0)=p(X_v,Y_v)$ 且 $\tilde{p} (X_v|\tilde{Y} _v = 0)=p(X_v)$ ，后一个表达式等于 $\lambda E_{p(X_v,Y_v)}[log p(X_v,Y_v|\theta)]+(1-\lambda)E_{p(X_v,Y_v}[logp(X_v|\theta)]$ 。我们得到表达式 4.2 。

White（1982）的结果也可以适应半监督学习的背景，以证明估计的方差一般随n的增加而减小。渐近方差取决于fisher信息的倒数；对于较大比例的标记数据，fisher信息通常较大（Castelli，1994；Castelli A封面，1995年，1996年）。

表达式4.2表明，半监督学习中的目标函数可以渐进地视为监督学习（ $E[log p(X_v,Y_v|\theta)]$ ）和非监督学习（ $E[log p(X_v|\theta)]$ ）目标函数的“凸”组合。用 $\theta^*_\lambda$ 表示给定 $\lambda$ 的表达式4.2最大化的 $\theta$ 值。用 $\theta^*_l$ 表示“标记的”极限 $\theta^*_1$ ，用 $\theta^*_u$ 表示“未标记的”极限 $\theta^*_0$ ，我们注意到，在模型密度的一些附加假设下，定理4.1和隐式函数定理可用于证明 $\theta^*_\lambda$ 是 $\lambda$ 的连续函数，即解决方案后面的“路径”是一个连续的路径。

现在，我们可以呈现第4.2节中概述的更正式的论点版本。假设第一分布族 $p(X_v,Y_v|\theta)$ 包含分布 $p(X_v,Y_v)$ ，就是说， $p(X_v,Y_v|\theta_T)=p(X_v,Y_v)$ 对某一 $\theta_T$ ，因此 “模型是正确的”。当满足这样一个条件的时候， $\theta^*_l=\theta^*_u=\theta_T$ 给定可识别性，然后 $\theta^*_{\lambda}=\theta_T$ ，对所有的 $0 < \lambda \leq 1$ ，是一个极大似然估计。这种情况下，极大似然估计是一致的，渐近偏向为 0，而且分类误差收敛到贝叶斯误差。由于方差随着标记数据和非标记数据的数量的增加而降低，两种数据的增加最终都会获得“正确”分布和贝叶斯误差。

我们现在研究更加与我们目的相关的情形，这种情况下分布 $p(X_v,Y_v)$ 不属于分布族 $p(X_v,Y_v|\theta)$ 。参数为 $\theta$ 的分类误差记为 $e(\theta)$ ，且假设 $e(\theta^*_u) > e(\theta^*_l)$ （如 Boy-Girl 和后面展示的其他例子中的）。如果我们观测到大量的标记样本，分类误接近于 $e(\theta^*_l)$ 。如果我们后来收集到更多的样本，其中大部分都是非标记的，我们最终到达一个分类误差为接近于 $e(\theta^*_u)$ 的点。因此，最终结果是，我们从接近 $e(\theta^*_l)$ 的分类误差开始，通过添加大量未标记样本，分类性能下降到 $e(\theta^*_u)$ 。标记数据集可以被一个更大的未标记数据集拉低表现：使用整个数据集的分类错误可以大于仅使用标记数据的分类错误。

总结，我们有如下结论。第一，在最大似然估计下，标记和未标记数据有助于减少半监督学习中的方差。其次，当模型是“正确的”时，最大似然法对有标记和无标记的数据都是渐近无偏的。第三，当模型“不正确”时，不同的 $\lambda$ 值可能存在不同的渐近偏差。渐近分类误差也可能随 $\lambda$ 而变化-未标记样本数量的增加可能导致更大的估计渐近偏差和更大的分类误差。如果用一组给定的标记数据获得的性能比用无限多的未标记样本获得的性能更好，那么在某一点上，添加未标记数据必须降低性能。

4.4 标记和非标记数据的价值

前面的讨论暗示存在这样的可能，即当模型“不正确”时 $e(\theta^*_u)>e(\theta^*_l)$ 。要了解有关这种现象的一些重要细节，请考虑另一个例子。

假设我们有来自两个类 -1和 +1 的特征 $X_{v1}$ 和 $X_{v2}$ 。我们知道 $(X_{v1},X_{v2})$ 是一个均值为 $(0,3/2)$ 条件于 $\{Y_v=1 \}$ ， $(3/2,0)$ 条件于 $\{Y_v=+1 \}$ 的高斯向量； $X_{v1}$ 和 $X_{v2}$ 条件于 $Y_v$ 都等于 1 。我们相信给定 $Y_v$ 是相互独立的，但实际上 $X_{v1}$ 和 $X_{v2}$ 是条件于 $\{Y_v=-1 \}$ 依赖的：相关性 $\rho = E[(X_{v1}-E[X_{v1}|Y_v=+1])(X_{v2}-E[X_{v2}|Y_v=+1])$ 等于 4/5 （ $X_{v1}$ 和 $X_{v2}$ 条件于 $\{Y_v=-1 \}$ 独立的）。数据采样自一个 $\eta = P(Y_v=-1)=3/5$ 的分布，但我们不知道这个概率。如果我们知道 $\rho$ 和 $\eta$ 的值，我就会很容易地计算平面 $X_{v1}\times X_{v2}$ 上的最优分类边界（这个最优分类边界是二次的）。通过错误地假设 $\rho$ 为 0 我们得到一个近似 $P(Y_v|X_{v1},X_{v2})$ 的朴素贝叶斯分类器。

在错误假设 $\rho=0$ 的情况下，"最优的” 分类边界是线性的： $x_{v2}=x_{v1}+2log((1-\hat\eta)/\hat\eta)/3$ 。有了标签数据，我们可以很容易地得到 $\hat\eta$ （一系列伯努利试验）；得到 $\eta^*_l = 3/5$ 分类边界由 $x_{v2}=x_{v1}-0.27031$ 给出。注意，用分类器标记的数据和生成的naive bayes分类器假设得到的（线性）边界不是尽可能减小分类误差的最佳线性边界。我们可以实际上找到最佳可能的线性边界的形式为 $x_{v2}=x_{v1} + \gamma$ 。分类误差可以写为一个二次导数为正的 $\gamma$ 的函数；结果这个函数只有一个可以数值解出的最小值（最小化的 $\gamma$ 为 $-0.45786$ ）。如果我们形如 $x_{v2}=x_{v1}+\gamma$ 的直线集，我看到离最佳的直线越远，分类误差越大。图4.2 展示了从标记数据获得的线性边界和最可能的线性边界。从标记数据获得的线性边界位于最佳线性边界的上方。

图4.2 高斯例子的图。左边，混合

p(X_{v1},X_{v2})

、最佳分类边界（二次曲线）和

x_{v2}=x_{v1}+\gamma

形式的最佳可能分类边界的等高线图。在右侧，相同的等高线图和最佳线性边界（下线）、从标记数据获得的线性边界（中线）和从未标记数据获得的线性边界（上线）。

现在考虑 $\eta^*_u$ 的计算，使用标记数据的渐近估计。通过定理 4.1 ，我们得到：

$arg\mathop{}_{\eta \in [0,1]}^{max}\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g_0(x_{v1},x_{v2})log(\eta g_1(x_{v1},x_{v2})+(1-\eta)g_3(x_{v1},x_{v2}))d_{x_{v2}}d_{x_{v1}}$ 其中

$g_0(x_{v1},x_{v2}) = (3/5)g_1(x_{v1},x_{v2})+(2/5)g_3(x_{v1},x_{v2}),$

$g_1(x_{v1},x_{v2})=N([0,3/2]^T,diag[1,1]),$

$g_2(x_{v1},x_{v2})=N([3/2,0]^T,\left[ \begin{matrix} 1 & 4/5 \\ 4/5 & 1\end{matrix}\right]),$

$g_3(x_{v1},x_{v2})=N([3/2,0]^T,diag[1,1]).$

这个二重积分的二次导数永远是负的（通过将微分与积分互换可以看出），因此这个函数是凸的进而只有一个最大值。我们可以求出关于 $\eta$ 的二重积分导数的零点。我们用数值方法得到这个值， $\eta^*_u=0.54495$ 。使用这个估计，来自非标记数据的线性边界为 $x_{v2}=x_{v1}-0.12019$ 。这条线位于来自标记数据的线性边界的上方，而且，根据之前的讨论，导致一个比来自标记数据的边界更大的分类误差。从非标记数据得到的边界也在图 4.2 中有所展示。最佳线性边界的分类误差是 0.06975，而 $e(\eta^*_l)=0.07356$ 、 $e(\eta^*_u)=0.08141$ 。

这个例子表明了以下情况。假设我们从 $P(Y_v,X_{v1},X_{v2})$ 中收集了大量的数量为 $l$ 的标记样本，其中 $\eta = 3/5,\rho=4/5$ 。标记的估计值形成一系列伯努利试验，概率为 $3/5$ ，因此估计值很快接近 $\eta^*_l$ （ $\hat\eta$ 的方差减少为 $6/(25l)$ ）。如果我们将大量未标记的数据添加到我们的数据中， $\hat\eta$ 接近 $\eta^*_u$ ，分类误差增加。

通过改变 $\eta$ 和 $\rho$ 的值，我们可以得到其他有趣的情况。例如，如果 $\eta = 3/5,\rho = -4/5$ ，最佳线性边界是 $x_{v2}=x_{v1}-0.37199$ ，来自标记数据的边界是 $x_{v2}=x_{v1}-0.27031$ ，来自未标记数据的边界是 $x_{v2}=x_{v1}-0.34532$ ；后一个边界是“介于”另两个之间-额外的未标记数据会提高分类性能！另一个例子是，如果 $\eta=3/5,\rho=-1/5$ ，则最佳线性边界为 $x_{v2}=x_{v1}-0.29044$ ，标记数据的边界为 $x_{v2}=x_{v1}-0.27031$ ，未标记数据的边界为 $x_{v2}=x_{v1}-0.29371$ 。最好的线性边界是“介于”另外两个边界之间。在这种情况下，我们通过将有标记和无标记的数据按 $\lambda = 0.08075$ 混合，得到最佳可能的线性边界。

到目前为止，我们发现，获取越来越多的未标记数据不仅会改变估计的方差，而且还会改变它们的平均行为。高斯示例表明，我们不能总是期望标记数据产生比未标记数据更好的分类器。尽管如此，人们还是会直观地期望标记的数据比未标记的数据为学习过程提供更多的指导。有没有什么可以说的（直观可信和经验性可见）更有价值的标签数据状态？

一个非正式的论点是。假设我们有一个估计 $\hat\theta$ 。通常情况下， $p(Y_v|X_v)$ 和 $p(Y_v|X_v,\hat\theta)$ 之间预期Kullback-Leibler发散值越小，分类误差越小，其中Kullback-Leibler发散值为 $EKL(\theta)=E[log(p(Y_v|X_v)/p(Y_v|X_v,\theta)]$ 。预期Kullback-Leibler发散的直接最小化产生 $EKL(\theta^*_t)$ ，其中 $\theta^*_t=argmax_{\theta}E[logp(Y_v|X_v,\theta)]$ 。现在非标记数据渐近产生 $EKL(\theta^*_u)$ ，其中 $\theta^*_u =argmax_{\theta}E[logp(X_v|\theta)]$ ；标记数据渐近产生 $EKL(\theta^*_l)$ ，其中 $\theta^*_l =argmax_{\theta}E[logp(X_v|\theta)]+E[logp(Y_v|X_v,\theta)]$ 。注意以下模式。我们有兴趣最小化 $E[logp(Y_v|X_v,\theta)]$ 。虽然标记数据允许我们最小化这个数量加上 $E[logp(X_v|\theta)]$ 的组合，但未标记数据只允许我们最小化 $E[logp(X_v|\theta)]$ 。当模型“不正确”时，实际上，最后一个数量可能远离“真” $E[logp(X_v)]$ ，而且我们从未标记的数据得到的帮助可能比从标记的数据得到的帮助要少。这种非正式的论点似乎是“模型不正确”时，标记数据比未标记数据更有价值的看法的核心。本章中的分析为这种看法增加了以下评论：通过尝试（渐进地）最小化预期值 $E[logp(X_v)|\theta]$ ，甚至可能是不相关的对于“真” $E[logp(X_v)]$ ，我们实际上可能会被未标记的数据引入歧途。

4.5 有限样本效应

渐进分析可以提供对复杂现象的洞察，但有限样本效应也很重要。在实践中，一个人可能只有很少的标记数据，并且从标记数据得到的估计θ可能很差，因此添加未标记数据是一个积极的举动。这可以解释如下。少量标记样本可能导致高方差的估计量，因此可能产生高分类误差（Friedman，1997年）。在这些情况下，即使未标记数据对偏差有负面影响，包含未标记数据也可能导致方差的大幅减少和分类误差的减少。

一般来说，需要估计的参数越多，相同数据量下估计量的方差就越大。如果我们有一个具有大量属性的分类器，并且我们只有几个带标签的样本，那么估计量的方差就很大，分类性能也很可能很差——那么添加未标记的数据是一个合理的操作。再次考虑图4.1（c）。这里我们有一个具有49个属性的朴素贝叶斯分类器。如果我们有相对大量的标记数据，我们开始接近“标记”极限 $e(\theta^*_l)$ ，然后我们观察向 $e(\theta^*_u)$ 移动时的性能下降。但是，如果我们只有很少的标记样本，那么我们就从非常差的性能开始，通过向 $e(\theta^*_u)$ 移动来减少分类错误。

我们注意到，文本分类是一个重要的问题，其中许多属性通常是可用的（通常是数千个属性），并且生成性半监督学习是成功的（Nigam等人，2000年）

4.6 模型搜索和鲁棒性

在半监督学习中，我们必须始终考虑到一个更精确的统计模型将从未标记的数据中获得显著收益的可能性。也就是说，我们应该尽可能地寻找“正确”的模型。事实上，文献已经描述了固定结构分类器（如Naive Bayes）表现不佳，而模型搜索方案可以导致优秀分类器的情况（Bruce，2001；Cohen等人，2003、2004）。尤其是Cohen等人（2004）讨论并比较不同的模型搜索策略与贝叶斯网络分类器的标记和未标记数据。结果表明，使用EM算法（Meila，1999）学习的Tan分类器与简单的Naive Bayes相比，有时可以改善分类并消除未标记数据的性能退化。相反，结构学习算法最大化类和属性的可能性，如Friedman（1998）提出的那些算法。而van Allen和Greiner（2000）不太可能以半监督的方式找到产生良好分类器的结构，因为他们专注于拟合联合分布而不是后验分布（Friedman等人也认为）。（1997）纯监督案件）。基于独立性的结构学习方法，也称为基于约束或基于测试的方法，是尝试学习正确模型的另一种选择。然而，这些方法并不容易适应使用未标记的数据。Cheng等人对算法进行了这样的修改。（1997）在Cohen等人（2004年），与EM版的tan相比，显示出无改善或边际改善，同时需要更大的计算复杂性。第三种选择是执行结构搜索，试图直接最大化分类精度。Cohen等人（2004）提出使用随机结构搜索算法（马尔可夫链蒙特卡罗），接受或拒绝基于其分类精度的模型（使用标记训练数据估计），同时学习每个模型的参数，使用标记和未标记数据的最大似然估计。该策略对具有少量标记样本（以及大量未标记样本）的数据集产生了非常好的结果，但对于具有少量标记样本的数据集效果不佳，因为它依赖于搜索过程中分类错误的估计。

鉴于本章的结果，未标记的数据也可用于测试建模假设。如果将未标记的数据添加到现有的标记数据池会降低性能，则明显表明建模假设不正确。实际上，我们可以使用O'Neill（1978）的结果来测试性能差异是否具有统计意义；一旦发现一组特定的建模假设存在缺陷，就可以开始健康的模型修订过程。事实上，有人可能会争辩说，模型搜索/修订应该始终是半监督学习工具集中的一个重要组成部分（Cozman等人，2003a）。

4.7 结论

考虑到性能下降的可能性，似乎在生成式半监督学习中必须注意一些问题。当模型“正确”时，直观且可证明是正确的陈述可能会失败（有时是可悲的！）当模型“不正确”时，显然轻微的建模错误可能会导致未标记的数据降低性能，即使在没有数字错误的情况下，甚至在标记更多的数据将有益的情况下。异常值和其他常见建模错误导致的性能下降的例子很容易被编造出来（Cozman等人，2003b）。

在没有建模错误的情况下，标记数据与未标记数据的区别仅在于“它们携带的与决策区域相关的决策信息”（Castelli和Cover，1995年）。然而，当我们考虑到建模错误的可能性时，标记数据和未标记数据在它们对估计产生的偏差方面也有所不同。第4.2、4.3和4.4节中的分析侧重于渐进偏差，这是一种避免受到有限样本效应和数值误差干扰的策略。然而，我们注意到有限样本效应在实践中可能很重要，正如我们在第4.5节中讨论的那样。

在这一点上，增加一些方法论特征的评论也许是有用的。在有标签和无标签数据的情况下，生成式半监督学习是一种很有吸引力的策略。但是，应该始终从学习带有标记数据的监督分类器开始。这种“基线”分类器可以通过交叉验证或类似技术与其他半监督分类器进行比较。只要建模假设看起来不准确，就可以使用未标记的数据来测试建模假设。如果时间和资源可用，则应进行模型搜索，试图达到一个“正确”的模型——也就是说，一个未标记数据将真正有益的模型。第4.6节中讨论的技术可用于此设置。另一个步骤是将基线分类器与非生成方法进行比较。正如本书其他章节所讨论的，有许多半监督的非生成分类器。也有大量的方法为了不同的目的使用标记和未标记的数据-例如，未标记的数据仅用于进行维数约简的方法（第12章）。然而，我们应该警告的是，文献中的一些经验结果表明，在非代际半监督学习范式中，例如转导支持向量机（SVM）（张和奥尔斯，2000年）和联合训练（Ghani，2002年）中，性能下降的可能性。

最后一个方法论评论涉及到主动学习——也就是说，在未标记的数据中标记所选样本的选项。在可能的情况下，应认真考虑该选项。在特定问题中，使用未标记的数据最有利可图的可能正是一个样本池，从中可以仔细选择和标记一些样本。一般来说，我们应该取一个有标签的样本的值远高于一个没有标签的样本的值。

最后编辑于：2019.07.02 10:45:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342