第十三章半监督学习

未标记样本

在现实任务中，会出现一部分样本被标记而另一部分样本未被标记的情况，那么如何利用好未标记样本数据呢？
主动学习：先用标记好的样本数据来进行训练，然后利用训练出的学习器找出未标记样本中对性能改善最大的数据来询问专家，如此只需要专家标记比较少的数据就可以得到比较强的学习器，这种方法被称为“主动学习”，此方法引入了额外的专家知识，还需要外部的介入来辅助学习。

显然，主动学习依旧需要依赖外部来进行，本质上是一种监督学习。让学习不依赖外部交互，自动地利用未标记样本数据来提升学习性能，这才是监督学习，即训练集同时包含了未标记样本和标记样本。

事实上，未标记样本虽然没有直接包含标记信息，但如果它们与有标记样本是从同样的数据源独立同分布采样而来，则它们所包含的关于数据分布的信息对建立模型有很大的益处。示例：

若仅基于图中的一个正例和反例，则由于待判别样本恰位于两者正中间，大体上只能随机猜测；若能观察到图中的为标记样本，则将很有把握的判别为正例。

聚类假设：假设数据存在簇结构，同一个簇的样本属于同一个类别。

流形假设：假设数据分布在一个流形结构上，邻近的样本拥有相似的输出值。邻近程度常用相似程度来刻画，因此，流形假设可以看做聚类假设的推广，但流形假设对输出值没有限制，因此适用范围更广。

事实上，无论是聚类假设还是流形假设，其本质都是相似的样本拥有相似的输出 这个基本假设。

半监督学习进一步划分为纯半监督学习和直推学习，二者的区别：纯半监督学习假定训练数据中的未标记样本并非待预测的数据，而直推学习假定学习过程中未标记样本是待预测数据，学习目的就是在这些未标记样本上获得最优的泛化性能。

下图直观显示出主动学习、纯监督学习和直推学习的区别：

生成式方法

生成式方法是直接基于生成式模型的方法，此类方法假设所有数据都是由同一个潜在模型产生的。此假设使得我们能通过潜在模型的参数将未标记样本数据与学习目的关联起来，而未标记数据的标记则可看作模型的确实参数。
此类方法假定样本数据服从一个潜在的分布，因此需要充分可靠的先验知识，先假定总体是一个高斯混合分布，即由多个高斯分布组合形成，从而一个高斯分布就代表一个类簇。其概率密度函数如下：

假设所有样本独立同分布，且都是由一个高斯混合模型生成的，用极大似然法来估计高斯混合模型的参数, 的对数似然是：

以上对于有标记样本，只能属于真实类标对应的特定类簇。

式（13.3）是样本x由第i个高斯混合成分生成的后验概率。

基于半监督的高斯混合模型有机地整合了贝叶斯分类器与高斯混合聚类的核心思想，有效地利用了未标记样本数据隐含的分布信息，从而使得参数的估计更加准确。

显然，式（13.4）基于有标记数据的有监督项和基于未标记数据的无监督项，高斯混合模型参数估计可用EM算法进行求解，迭代更新式如下：

以上过程不断迭代直至收敛，即可获得模型参数，然后由式(13.3)和式(13.2)就能对样本进行分类。

半监督SVM

半监督支持向量机(SVM)是支持向量机在半监督学习上的推广。监督学习中的SVM试图寻找一个划分超平面，使得两侧支持向量机之间的间隔最大，而对于半监督学习，S3VM则考虑超平面需要穿过数据低密度的区域。

半监督支持向量机中最具代表性的是TSVM，是针对而分类问题的学习方法。其核心思想是尝试为未标记样本找到合使的标记指派，使得超平面划分后的间隔最大化。
目标：

其中，和是折中参数，是松弛变量，两个分别对应于有标记样本与无标记样本。
算法流程:

循环中止条件为 $C_u == C_l$ ，循环中逐渐增大 $C_u$ 来提高未标记样本对优化目标的影响。对于上图6—10行，如果存在一对未标记样本，其标记指派不同，且对应的松弛变量满足之和大于2，则意味着其标记指派很可能是错误的，需要对二者进行交换后重新求解式，如此每轮迭代后均可使得目标函数值下降。

图半监督学习

基本概念：给定一个数据集可以映射为一个图，样本作点，强度作边。
迭代式标记传播算法：

基于分歧的方法

与生成式方法和半监督SVM、图半监督学习等基于单学习器利用未标记数据不同，基于分歧的方法使用多学习器，而学习器之间的“分歧”对未标记数据的利用至关重要。其代表方法是协同训练，针对多视图数据。关于视图，引入两个重要性质：

相容性：即使用单个视图数据训练出的学习器的输出空间是一致的。例如都是{好，坏}、{+1,-1}等。
互补性：即不同视图所提供的信息是互补/相辅相成的，实质上这里体现的就是集成学习的思想。

协同训练的基本思想：基于有标记样本数据在每个视图上都训练一个初始分类器，然后让每个分类器去挑选分类置信度最高的样本并赋予标记，并将带有伪标记的样本数据给另一个分类器去学习。
算法流程：

对最终输出的两个分类器作集成。此算法无需数据拥有多视图，只需要弱学习器之间有显著的分歧，就可通过互相提供伪标记样本的方式来提高泛化性能。
基于分歧的方法只需要采用适合的基学习器，就能减少受到模型假设、损失函数非凸性和数据规模问题带来的影响。

半监督聚类

聚类是一种典型的无监督学习方法，然而在现实聚类任务中我们往往能获得一些额外的监督信息，于是可以通过半监督聚类来利用监督信息以活得更好的聚类效果。
监督信息的两种类型：
1、勿连约束：样本必定不属于同一个簇，监督信息是少量的有标记样本；
2、必连约束：样本必定属于同一个簇。

约束k均值算法（利用第一类监督信息的代表）

该算法与K-mean算法的区别在于给定必连关系集合和勿连关系集合，在聚类过程种确保必连关系集合和勿连关系集合的约束得到满足，否则返回错误。

约束种子k均值算法（少量有标记样本）

该算法先使用带标记样本各类别的均值向量作为初始类，然后将标记样本直接划入对应的类簇，接着划分无标记样本，再重新计算类中心。

最后编辑于：2020.07.18 14:29:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,311评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,339评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,671评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,252评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,253评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,031评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,340评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,973评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,466评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,937评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,039评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,701评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,254评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,259评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,497评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,786评论 2赞 345

第十三章 半监督学习