李飞飞等人提出MentorNet：让深度神经网络克服大数据中的噪声

姓名：张萌学号17021211113

转自:

http://mp.weixin.qq.com/s/VSQEFD2fQVrjlJ-LNn0CGg

【嵌牛导读】：有老师指导就能更好地学习吗？对于深度神经网络是否也是如此？近日，谷歌和斯坦福大学的研究者在其论文中提出了一种用 MentorNet 监督 StudentNet 进行训练的新技术。这项研究的第一作者是谷歌云机器学习的研究科学家蒋路（Lu Jiang），另外李佳和李飞飞也参与了该研究。

【嵌牛鼻子】：深度神经网络

【嵌牛提问】：如何让深度神经网络克服大数据中的噪声？

【嵌牛正文】：在目标识别 [19, 15, 39] 和检测 [14] 等多种视觉任务上，深度神经网络已经取得了很大的成功。当前最佳的深度网络有数百层，而可训练的模型参数的数量更是远远超过了它们训练所用的样本的数量。最近一项研究发现即使是在有损的标签上（其中部分或所有真实标签被随机标签替换），深度网络也能记忆整个数据 [45]。正则化（regularization）是一种用于克服过拟合的有效方法。张弛原等人 [45] 通过实验表明：当在有损的标签上训练时，权重衰减、数据增强 [20] 和 dropout [36] 等常用于神经网络的正则化算法（即模型正则化器（model regularizer））在提升深度卷积神经网络（CNN）的生成表现上的效果不佳；我们的研究也证实了这个观察结果。深度 CNN 通常是在大规模数据上训练的，在这些数据上的标注通常有很多噪声 [1,11]。过拟合训练数据中的噪声常常会让模型的表现变得很差。

图片发自简书App

图 1：已有的正则化方法和我们的正则化方法的图示。每个点表示一个训练样本，点的大小表示样本权重。曲线表示学习到的模型。权重衰减等已有的正则化方法对深度 CNN 而言效果不佳。数据正则化是通过学习为样本分配合适的权重来解决深度 CNN 的过拟合问题。

由于模型参数数量庞大，所以正则化非常深度的 CNN 颇具挑战性。为了解决这一难题，我们提出了一种在数据维（data dimension）中正则化深度 CNN 的全新技术，我们称之为数据正则化（data regularization）。我们的目标是通过正则化在有损标签上训练的 CNN 来提升其在清洁测试数据上的泛化表现。可以被看作是深度 CNN 的网络有 Resnet [15] 和 Inception-resnet [39]，它们有几百层，而且参数的数量比训练样本的数量多几个数量级。具体来说，我们提出为用于训练该分类网络（即 StudentNet）的每个样本学习随时间变化的权重。我们引入了一种 MentorNet 来监督该 StudentNet 的训练。如图 1 所示，在训练过程中，MentorNet 学习为每个训练样本分配一个权重。通过学习不均衡的权重，MentorNet 鼓励某些样本学得更早，并且得到更多注意，由此对学习工作进行优先级排列。对于 MentorNet 训练，我们首先预训练一个 MentorNet 来近似得到有标签数据中特定的一些预定义权重。然后我们在具有清洁标签的第三个数据集上对它进行微调。在测试的时候，StudentNet 独自进行预测，不会使用 MentorNet。

我们的方法受到了课程学习（curriculum learning）[4] 的启发。MentorNet 学习给训练样本加权，从而得到一个课程（curriculum），该课程决定了学习每个样本的时间和注意程度。课程学习已经在各种计算机视觉问题 [38, 26, 7, 16, 25, 44]、脸部检测 [26]、目标检测 [7]、视频检测 [16] 中被用来寻找更好的极小值了。我们的模型通过神经网络从数据学习课程，从而推进了课程学习方法。我们提出的模型让我们可以通过一个共同框架来理解和进一步分析已有的加权方案，比如自步式加权（self-paced weighting）[21]、hard negative mining [31] 和 focal loss [27]，更重要的是让我们可以通过神经网络学习这些方案。此外，我们讨论了一种使用深度 CNN 在大规模数据上用于优化 MentorNet 的算法。我们从理论上证明了它的收敛性并且通过实验在大规模 ImageNet 数据上评估了该算法的表现。

我们在 CIFAR-10、CIFAR-100、ImageNet 和 YFCC100M 这四个基准上验证了 MentorNet。全方位的实验表明 MentorNet 可以提升在受控和真实有噪声标签上训练的深度 CNN 的表现，并且表现也优于之前最佳的弱监督学习方法。总而言之，本论文有三大贡献：

我们发现通过学习另一个网络来加权训练样本，在有损标签上训练的深度 CNN 可以获得提升。

我们提出了一种使用在大数据上的深度 CNN 来优化 MentorNet 的算法，并且在标准的轻微假设下证明了其收敛性。

我们在具有受控的和真实的有噪声标签的 4 个数据集上实证验证了我们提出的模型。

算法

事实证明，相关研究中所使用的其它最小化方法难以应付大规模训练，这主要是由于两大重要原因。首先，在固定隐变量 v 时最小化网络参数 w 的子程序中，随机梯度下降通常需要很多步骤才能实现收敛。这意味着这一单个子步骤可能需要消耗很长的时间。但是，这样的计算往往很浪费，尤其是在训练的初始部分；因为当 v 离最优点还很远时，找到对应于这个 v 的准确的最优 w 并没有多大用处。其次，更重要的是，固定 w 而最小化 v 的子程序往往不切实际，因为固定的向量 v 甚至可能都无法放入内存。比如，在 5000 个类别上训练 1000 万个样本，光是存储其权重矩阵就需要消耗 2TB。在有大规模训练数据时训练数据正则化目标需要一些算法层面的思考。

图片发自简书App

算法 1

图片发自简书App

图 2：我们提出的 MentorNet 架构。输入特征是样本损失、标签和训练 epoch。输出是 mini-batch 中每个样本的权重。emb、fc 和 prob sampling 分别表示嵌入、全连接和概率采样层。和分别表示在 epoch t 处的样本损失和损失移动平均（loss moving average）。

图片发自简书App

表 1：学习预定义的加权方案的 MSE 比较。

图片发自简书App

图 3：MentorNet 架构的收敛比较。

图片发自简书App

图 4：经典正则化算法和我们的正则化算法在 CIFAR-10 和 CIFAR-100 上的结果比较。图上说明了数据集和 StudentNet。x 轴和 y 轴分别表示噪声比例和在清洁的测试数据上的分类准确度。

论文：MentorNet：在有损的标签上正则化非常深度的神经网络（MentorNet: Regularizing Very Deep Neural Networks on Corrupted Labels）

图片发自简书App

论文链接：https://arxiv.org/abs/1712.05055

摘要：最近的研究发现即使当标签完全随机时，深度网络也能记忆整个数据。因为深度模型是在标签往往有噪声的大数据上训练的，过拟合噪声可能会导致模型表现不佳。为了克服过拟合有损训练数据的问题，我们提出了一种在数据维中正则化深度网络的全新技术。这种方法是学习一个名叫 MentorNet 的神经网络来监督基础网络 StudentNet 的训练。我们的工作受到了课程学习的启发并且通过神经网络从数据学习课程而推进了这一理论。我们在几个基准上演示了 MentorNet 的效果。全方位的实验表明其能够显著提升有损训练数据上当前最佳深度网络的泛化表现。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,772评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,458评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,610评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,640评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,657评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,590评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,962评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,631评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,870评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,611评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,704评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,386评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,969评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,944评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,179评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,742评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,440评论 2赞 342

李飞飞等人提出MentorNet：让深度神经网络克服大数据中的噪声

推荐阅读更多精彩内容