【NLP论文笔记】Enriching word vectors with subword information（FastText词向量）

本文主要用于记录脸书AI研究院发表于2016年的一篇论文（引用量接近破千）。该论文提出的基于word2vec与字符级向量融合的词向量构建在保证效果的同时，大大提升了训练及预测效率。本笔记主要为方便初学者快速入门，以及自我回顾。

论文链接：https://arxiv.org/abs/1607.04606
Github: https://github.com/facebookresearch/fastText

基本目录如下：

摘要
核心思想
总结

------------------第一菇 - 摘要------------------

1.1 论文摘要

在自然语言处理任务中，以word2vec为代表的词向量已经被证实是有效的，但这种将每一个词都赋以一个单独的词向量的做法，却忽视了词本身形态学的差异（举个最简单的例子就是，对于英语中的复数问题，仅仅是多了个s或es，但却是俩个词向量的表达）。这是一个很大的缺陷，尤其是对于那种大语料的数据，常常有很多偏僻词的词向量是无法学习得到的（因为会有一个voc size的上限）。在本篇论文中，作者提出了一种基于skipgram的模型，唯一的区别是每一个词汇均由n-gram构成（其实就是简单的相加求平均每一个字符级向量）。作者提出的模型有一个最大的优势就是效率高，且对生僻词也有词向量表达。并且在后续的实验中证实，该模型的有效性。

------------------第二菇 - 核心思想------------------

2.1 论文模型预备知识 - 层次Softmax

简单来说，Softmax回归其实就是逻辑回归在多类别分类上的推广，而层次Softmax就是一种加速计算的方法。我们一步步拆解来看，方便大家理解。

对于逻辑回归的损失函数，想必但凡有一定ml基础的都知道，

$J(\theta) = -[\sum_{i=1}^my^{(i)}logh_{\theta}(x^{(i)}) + (1- y^{(i)})log(1 - h_{\theta}(x^{(i)}))]$

而其推广到多分类问题就是（简略推导见下图手稿，详细推导看这篇），

Softmax推导理解.jpeg

熟悉了softmax求解的过程的读者们，想必也发现了在标准的求解过程中，要计算 $y=j$ 时的归一化概率，需要遍历计算所有分类的概率，这在 $|y|$ 很大的时候，相当耗时～于是，这才有了分层softmax的概念，其基本思想就是用树的层级结构（熟悉word2vec的同学应该还能想起来那个霍夫曼树吧～嘻嘻）来替代扁平化的softmax。使得在计算相应类别概率时，只需计算一条路径上的节点概率值，而不需要计算其他路径。贴一张网上盗的图，方便大家理解，具体的计算推导可以参见该文章，本文就不在展开。直接摆出的一个结论就是，通过分层的softmax，计算复杂度从 $|K|$ 降低到 $log|K|$ 。

层级softmax示意图.png

2.2 论文模型预备知识 - N-gram 特征

自然语言处理的入门基础，也是最简单的一种文本特征提取方式。其最基本的思想就是将文本内容按照字节顺序进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。根据窗口N的大小不同，也可分为unigram，bi-gram等。提取出了这些最基本的特征之后，才会有后续各种各样的处理，比如tf-idf之类的，进一步提升特征的质量。关于该项技术的应用，本文也无需多言，想必大家是非常熟悉的。

2.3 论文模型预备知识 - CBOW模型理解

在深入FastText之前，大家还是先在回顾一下word2vec的基本原理。毕竟两者有着很大的关联啊～这里先介绍一下CBOW模型的基本思路，最基本的框架图如下，

CBOW模型框架.png

输入词由目标词汇 $y$ 的上下文组成，通过 $V*N$ 维的向量映射到隐含层，再通过 $N*V$ 维的向量映射到输出层。其中V就是词汇量的大小，N就是词向量的纬度，输出层就是被one-hot编码的目标词（层级softmax派上用场了）。具体的理解，可以参见如下我读研期间的手稿，

CBOW模型理解.jpeg

2.3 论文模型架构

经过上述的知识点回顾，想必接下来对新的词向量的理解就很简单了。现在让我们回到论文本身。

根据论文结构，我们也先来聊一聊，论文的基础模型。论文的第三章先介绍了一下加了负采样处理的skipgram模型（关于负采样的理解参见附件1），其引出了损失函数如下图，

Objective.png

其中的s是一个计分函数，其是由 $w_t, w_c$ 的词向量计算得到，如下，

$s(w_t, w_c) = u_{wt}^Tv_{wc}$

到目前为止，其实还都是word2vec的东西，接下来的一章，作者展现了其创新的点。论文作者认为，仅仅通过一个独立的词向量来表达一个词，会造成很大问题，比如忽视了词的形态学信息，因此作者提出来一个新的计分函数。

作者认为每一个词，都可以由n-gram的词袋特征来表示，具体的表示见下面这个例子，假设n取3，对于单词where，其可以表示为，

$<wh, whe, her, ere, re> + <where>$

因此，此时模型要去学的就是wh, whe...等的向量表征，再通过求和得到where的词向量表征，如下，

scoring_function.png

至此，本文的模型结构部分就介绍完了。简单总结一下就是word2vec和字符级向量表达的结合版哈哈～

2.4 论文模型分析

在模型的实施细节里，我注意到，对于英文数据的训练，本模型要比相对应的skipgram基线模型慢1.5倍。。。（说话的很快呢。。。其实也可以理解，毕竟是n_gram的）。粗粗看了一下模型实验分析，大概能得出几个比较重要的结论如下，

1）对于不同的语言，采用n-gram的字符级向量信息，带来的收益并非都成正比。对于类似德文这样多复合词的，会取得更好的效果，但是对英文来说，则不一定适用。

2）对于语法学（syntactic）的问题，本文的模型表现的更优异，但是对于语意学（semantic）的问题，本文的模型则不会比基线模型表现的更好，有时候甚至表现的更糟糕。

3）对于训练数据来说，作者实验发现，本文提出的模型，对于小样本的数据量，同样有着优异的表现，并且对于生僻词也有很好的表达。而且，随着数据量样本的增多，对于本文的模型的收益的增加，是不如传统的word2vec模型的。

其他的一些实验的细节，大家可以参考原论文，这里就不一一展现了。而且作者也一再强调了一件事，本文的模型适用于任何的语言，而且训练简单，不需要任何其他的预处理，有兴趣的读者也可以去尝试一下，用来构建中文的词向量。

------------------第三菇 - 总结------------------

3.1 总结

到这里，整篇论文的核心思想及其创新点已经说清楚了。本论文主要集中在于阐述作者提出的新的词向量的核心思想及构建方法，并在之后进行了一系列模型的调参实验并且呈现了该词向量模型与其他模型的效果验证对比。最终证明了该词向量模型的广泛适用性。

简单总结一下本文就是先罗列了一下该论文的摘要，再具体介绍了一下基于subinfo的word2vec改进版的词向量模型的核心思想及推导。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出，多多交流，大家一起进步～😁

------------------第四菇 - 附件------------------

4.1 word2vec中的负采样理解

Negative-sampling模型.jpeg

最后编辑于：2020.01.04 11:48:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343