本文主要用于记录脸书AI研究院发表于2016年的一篇论文(引用量接近破千)。该论文提出的基于word2vec与字符级向量融合的词向量构建在保证效果的同时,大大提升了训练及预测效率。本笔记主要为方便初学者快速入门,以及自我回顾。
论文链接:https://arxiv.org/abs/1607.04606
Github: https://github.com/facebookresearch/fastText
基本目录如下:
- 摘要
- 核心思想
- 总结
------------------第一菇 - 摘要------------------
1.1 论文摘要
在自然语言处理任务中,以word2vec为代表的词向量已经被证实是有效的,但这种将每一个词都赋以一个单独的词向量的做法,却忽视了词本身形态学的差异(举个最简单的例子就是,对于英语中的复数问题,仅仅是多了个s或es,但却是俩个词向量的表达)。这是一个很大的缺陷,尤其是对于那种大语料的数据,常常有很多偏僻词的词向量是无法学习得到的(因为会有一个voc size的上限)。在本篇论文中,作者提出了一种基于skipgram的模型,唯一的区别是每一个词汇均由n-gram构成(其实就是简单的相加求平均每一个字符级向量)。作者提出的模型有一个最大的优势就是效率高,且对生僻词也有词向量表达。并且在后续的实验中证实,该模型的有效性。
------------------第二菇 - 核心思想------------------
2.1 论文模型预备知识 - 层次Softmax
简单来说,Softmax回归其实就是逻辑回归在多类别分类上的推广,而层次Softmax就是一种加速计算的方法。我们一步步拆解来看,方便大家理解。
对于逻辑回归的损失函数,想必但凡有一定ml基础的都知道,
而其推广到多分类问题就是(简略推导见下图手稿,详细推导看这篇),
熟悉了softmax求解的过程的读者们,想必也发现了在标准的求解过程中,要计算时的归一化概率,需要遍历计算所有分类的概率,这在很大的时候,相当耗时~于是,这才有了分层softmax的概念,其基本思想就是用树的层级结构(熟悉word2vec的同学应该还能想起来那个霍夫曼树吧~嘻嘻)来替代扁平化的softmax。使得在计算相应类别概率时,只需计算一条路径上的节点概率值,而不需要计算其他路径。贴一张网上盗的图,方便大家理解,具体的计算推导可以参见该文章,本文就不在展开。直接摆出的一个结论就是,通过分层的softmax,计算复杂度从降低到。
2.2 论文模型预备知识 - N-gram 特征
自然语言处理的入门基础,也是最简单的一种文本特征提取方式。其最基本的思想就是将文本内容按照字节顺序进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。根据窗口N的大小不同,也可分为unigram,bi-gram等。提取出了这些最基本的特征之后,才会有后续各种各样的处理,比如tf-idf之类的,进一步提升特征的质量。关于该项技术的应用,本文也无需多言,想必大家是非常熟悉的。
2.3 论文模型预备知识 - CBOW模型理解
在深入FastText之前,大家还是先在回顾一下word2vec的基本原理。毕竟两者有着很大的关联啊~这里先介绍一下CBOW模型的基本思路,最基本的框架图如下,
输入词由目标词汇的上下文组成,通过维的向量映射到隐含层,再通过维的向量映射到输出层。其中V就是词汇量的大小,N就是词向量的纬度,输出层就是被one-hot编码的目标词(层级softmax派上用场了)。具体的理解,可以参见如下我读研期间的手稿,
2.3 论文模型架构
经过上述的知识点回顾,想必接下来对新的词向量的理解就很简单了。现在让我们回到论文本身。
根据论文结构,我们也先来聊一聊,论文的基础模型。论文的第三章先介绍了一下加了负采样处理的skipgram模型(关于负采样的理解参见附件1),其引出了损失函数如下图,
其中的s是一个计分函数,其是由的词向量计算得到,如下,
到目前为止,其实还都是word2vec的东西,接下来的一章,作者展现了其创新的点。论文作者认为,仅仅通过一个独立的词向量来表达一个词,会造成很大问题,比如忽视了词的形态学信息,因此作者提出来一个新的计分函数。
作者认为每一个词,都可以由n-gram的词袋特征来表示,具体的表示见下面这个例子,假设n取3,对于单词where,其可以表示为,
因此,此时模型要去学的就是wh, whe...等的向量表征,再通过求和得到where的词向量表征,如下,
至此,本文的模型结构部分就介绍完了。简单总结一下就是word2vec和字符级向量表达的结合版哈哈~
2.4 论文模型分析
在模型的实施细节里,我注意到,对于英文数据的训练,本模型要比相对应的skipgram基线模型慢1.5倍。。。(说话的很快呢。。。其实也可以理解,毕竟是n_gram的)。粗粗看了一下模型实验分析,大概能得出几个比较重要的结论如下,
1)对于不同的语言,采用n-gram的字符级向量信息,带来的收益并非都成正比。对于类似德文这样多复合词的,会取得更好的效果,但是对英文来说,则不一定适用。
2)对于语法学(syntactic)的问题,本文的模型表现的更优异,但是对于语意学(semantic)的问题,本文的模型则不会比基线模型表现的更好,有时候甚至表现的更糟糕。
3)对于训练数据来说,作者实验发现,本文提出的模型,对于小样本的数据量,同样有着优异的表现,并且对于生僻词也有很好的表达。而且,随着数据量样本的增多,对于本文的模型的收益的增加,是不如传统的word2vec模型的。
其他的一些实验的细节,大家可以参考原论文,这里就不一一展现了。而且作者也一再强调了一件事,本文的模型适用于任何的语言,而且训练简单,不需要任何其他的预处理,有兴趣的读者也可以去尝试一下,用来构建中文的词向量。
------------------第三菇 - 总结------------------
3.1 总结
到这里,整篇论文的核心思想及其创新点已经说清楚了。本论文主要集中在于阐述作者提出的新的词向量的核心思想及构建方法,并在之后进行了一系列模型的调参实验并且呈现了该词向量模型与其他模型的效果验证对比。最终证明了该词向量模型的广泛适用性。
简单总结一下本文就是先罗列了一下该论文的摘要,再具体介绍了一下基于subinfo的word2vec改进版的词向量模型的核心思想及推导。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出,多多交流,大家一起进步~😁
------------------第四菇 - 附件------------------