NLP中的迁移学习

摘要：迁移学习正在各个领域大展拳脚，NLP领域正在受到冲击！

在我们之前的文章中，我们展示了如何使用CNN与迁移学习为我们自己创建图片构建分类器。今天，我们介绍NLP中迁移学习的最新趋势，并尝试进行分类任务：将亚马逊评论的数据集分类为正面或负面。

NLP中的迁移学习理念在fast.ai课程中得到了很好的体现，我们鼓励你查看论坛。我们这里的参考文件是Howard，Ruder，“用于文本分类的通用语言模型微调”。

什么是迁移学习？

计算机视觉是一个使用迁移学习而取得巨大进步的领域。它具有数百万参数的高度非线性模型需要大量数据集进行训练，并且通常需要数天或数周才能进行训练，只是为了能够将图像分类为包含狗或猫！

随着ImageNet的挑战，团队每年都参与竞争，以设计出最佳的图像分类器。已经观察到这些模型的隐藏层能够捕获图像中的一般知识（边缘、某些形式、样式......）。因此，每次我们想要改变任务时，没有必要从头开始重新训练模型。

让我们以VGG-16模型为例（Simonyan、Karen和Zisserman·“用于大规模图像识别的非常深的卷积网络。”（2014））

这种架构比较复杂、层数多、参数数量多。作者声称使用4个强大的GPU训练了为3周时间。

迁移学习的想法是，由于中间层被认为是学习图像的一般知识，我们可以将它们用作当成比较全面的特征！我们将下载一个预先训练好的模型（在ImageNet任务上训练数周），删除网络的最后一层（完全连接的层，在ImageNet挑战的1000个类上投射功能），添加put而不是我们选择的分类器，适合我们的任务（如果我们有兴趣对猫和狗进行分类，则为二元分类器），最后仅训练我们的分类层。并且因为我们使用的数据可能与之前训练过的模型数据不同，我们也可以进行微调步骤，这样我们就能在相当短的时间内训练所有层。

除了更快地进行训练之外，迁移学习特别有趣，因为仅在最后一层进行训练使我们仅使用较少的标记数据即可，而端对端训练整个模型则需要庞大的数据集。标记数据很昂贵，并且非常需要建立高质量模型而不需要大数据集。

那么NLP中的迁移学习呢？

NLP深度学习的进展不像计算机视觉那样成熟。虽然可以想象机器能够学习边缘、圆形、正方形等形状，然后使用这些知识做其他事情，但对于文本数据来说这些并不简单。

最初流行的在NLP中迁移学习是由嵌入模型这个词（由word2vec和GloVe广泛推广）带来的。这些单词矢量表示利用单词的上下文，将它们表示为向量，其中相似的单词应具有相似的单词表示。

在这个图中，来自word2vec论文，我们看到该模型能够学习国家与其首都城市之间的关系。

包括预先训练的单词向量已经显示出在大多数NLP任务中改进度量，因此已经被NLP社区广泛采用，被用来寻找甚至更好的单词/字符/文档表示。与计算机视觉一样，预训练的单词向量可以被视为特征化函数，转换一组特征中的每个单词。

但是，单词嵌入仅代表大多数NLP模型的第一层。之后，我们仍然需要从头开始训练所有RNN / CNN /自定义层。

用于文本分类的语言模型微调

今年早些时候霍华德和罗德提出了ULMFit模型，以此来进一步提升了迁移学习在NLP的应用。

他们正在探索的想法是基于语言模型。语言模型是一种能够根据已经看到的单词预测下一个单词的模型（想想你的智能手机在你发短信时为你猜测下一个单词）。就像图像分类器通过对图像分类来获得图像的内在知识一样，如果NLP模型能够准确地预测下一个单词，那么说明它已经学到了很多关于自然语言结构。这些知识应提供良好的初始化，然后可以在自定义任务上进行训练！

ULMFit建议在非常大的文本语料库（例如维基百科）上训练语言模型，并将其用作任何分类器的主干！由于你的文本数据可能与维基百科的编写方式不同，因此你需要微调语言模型的参数以将这些差异考虑在内。然后，我们将在此语言模型的顶部添加分类器层，并仅训练此层！

ULMfit paper

让人惊讶的结果是，使用这种预训练的语言模型使我们能够在更少标记的数据上训练分类器！虽然未标记的数据在网络上几乎是无限的，但标记数据非常昂贵且耗时。

以下是他们从IMDb情绪分析任务中报告的结果：

虽然只有100个示例，它们能够达到与使用20k示例从头开始训练时模型达到的相同错误率！

此外，他们还提供了代码，以你选择的语言预先训练语言模型。由于维基百科存在很多的语言中，因此我们可以使用维基百科数据快速从一种语言迁移到另一种语言。众所周知，公共标签数据集更难以使用英语以外的语言进行访问。在这里，你可以对未标记数据上的语言模型进行微调，花几个小时手动注释几百/千个数据点，并使分类器头部适应你预先训练的语言模型来执行你的任务！

游乐场与亚马逊评论

为了改变这种方法的不足之处，我们使用为其论文中的公共数据集上进行了尝试。我们在Kaggle上找到了这个数据集：它包含4百万条关于亚马逊产品的评论，并用积极或消极的情绪标记它们。我们将针对ULMfit的fast.ai课程调整将亚马逊评论分类为正面或负面。我们发现只需要1000个数据点，该模型就能够匹配通过在完整数据集上从头开始训练FastText模型获得的准确度分数。仅使用100个标记示例，该模型仍然能够获得良好的性能。

要重现此实验，你可以使用此笔记本，建议使用GPU来运行微调和分类部分。

NLP中的无监督与监督学习，围绕意义进行讨论

使用ULMFit，我们使用了无监督和监督学习。训练无监督的语言模型是“便宜的”，因为你可以在线访问几乎无限的文本数据。但是，使用监督模型很昂贵，因为你需要对数据进行标记。

虽然语言模型能够从自然语言的结构中捕获大量相关信息，但尚不清楚它是否能够捕获文本的含义，即“发送者打算传达的信息或概念”。

你可能已经关注了NLP中非常有趣的Twitter主题。在这个帖子中，艾米莉·本德利用“泰国房间实验”对她进行了反对意义捕获的论证：想象一下，你在一个巨大的图书馆里得到了所有泰国文学的总和。假设你还不懂泰语，你就不会从中学到任何东西。

所以我们可以认为语言模型学到的更多是语法而不是意义。然而，语言模型比仅仅预测语法相关的句子更好。例如，“我要吃来这台电脑”和“我讨厌这台电脑”两者在语法上都是正确的，但一个好的语言模型应该能够知道“我讨厌这台电脑”应该比另外一句更“准确”。所以，即使我看过整个泰语维基百科，我也无法用泰语写作，但很容易看出语言模型确实超越了简单的语法/结构理解。

我们不会在这里进一步探讨意义的概念（这是一个无穷无尽且引人入胜的话题/辩论），如果你有兴趣，我们建议你看下Yejin Choi在ACL 2018的演讲中是如何探讨这一主题的。

NLP中迁移学习的未来

ULMFit取得的进展推动了NLP迁移学习的研究。对于NLP来说，这是一个激动人心的时刻，因为其他微调语言模型也开始出现，特别是FineTune Transformer LM。我们还注意到，随着更好的语言模型的出现，我们甚至可以改善这种知识迁移。

本文作者：【方向】

阅读原文

作者：阿里云云栖社区

链接：https://www.jianshu.com/p/bc620ff440a5

來源：简书

简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

NLP中的迁移学习

推荐阅读更多精彩内容