Enriching Word Vectors with Subword Information——FastText算法学习

Model

模型在考虑形态(morphology)的同时,学习单词表示。通过考虑子词单元并将单词表示为其字符n-grams之和,作者对形态进行建模。下面,将开始介绍训练词向量的一般结构,随后介绍子词模型,最后介绍如何处理n-grams字符字典。

General model

首先对continuous skip-gram模型进行回顾。给定一个大小为W的词汇表,其中每个单词由其对应的索引w\in\{1,...,W\}表示。目标任务是为每个单词w学习一个向量表示。受分布假设(distributional hypothesis)的启发,词表示被训练来预测在其上下文中出现的“恰当”单词。正式地,给定一个被表示为词序列w_1,……,w_T的大型训练语料库,skip-gram模型的目的是最大化下面的log-似然:

\sum_{t=1}^{T}\sum_{c\in\mathcal{C}_t}logp(w_c|w_t)

其中上下文\mathcal{C}_t是单词w_t周围单词的索引。在给定w_t下,观察一个上下文单词w_c的概率将使用前面提到的单词向量进行参数化。从现在起,给定一个得分函数s,其将(单词,上下文)对映射到\mathbb{R}空间上的得分。定义一个上下文单词概率可使用softmax:

p(w_c|w_t) = \frac{e^{s(w_t,w_c)}}{\sum_{j=1}^{W}e^{s(w_t,w_j)}}

然而,该模型意味着,给定一个单词w_t,仅预测一个上下文单词w_c

预测上下文单词的问题可以改为一组独立的二元分类任务。因此,目标是独立地预测上下文单词的存在(或不存在)。对在位置t的单词,将其所有上下文单词作为正样本,其随机从词汇表中取样负样本。对在位置为c的上下文单词,使用二元logistic损失,将获得以下的负对数似然:

\begin{aligned} &-log(\frac{1}{1+e^{-s(w_t,w_c)}}) - \sum_{w_n\in\mathcal{N}_{t,c}}log(1-\frac{1}{1+e^{-s(w_t,w_n)}}) \\ & = log(1+e^{-s(w_t,w_c)}) - \sum_{w_n\in\mathcal{N}_{t,c}}log(\frac{e^{-s(w_t,w_n)}}{1+e^{-s(w_t,w_n)}}) \\ & = log(1+e^{-s(w_t,w_c)}) - \sum_{w_n\in\mathcal{N}_{t,c}}log(\frac{1}{1+e^{s(w_t,w_n)}}) \\ & = log(1+e^{-s(w_t,w_c)}) + \sum_{w_n\in\mathcal{N}_{t,c}}log(1+e^{s(w_t,w_n)}) \\ \end{aligned}

注意:这里每个正样本对应的是一组负样本!!!

其中,\mathcal{N}_{t,c}是一组从词汇表中采样的负样本。令l: x\mapsto log(1+e^{-x})为logistic损失函数,上式可写为:

\sum_{t=1}^{T}[\sum_{w_c\in\mathcal{C}_t}l(s(w_t,w_c))+\sum_{w_n\in\mathcal{N}_{t,c}}l(-s(w_t,w_n))]

单词w_t和上下文单词w_c之间的评分函数的自然参数化是使用单词向量。在词汇表中的每个单词w上定义了\mathbb{R}^d上的两个单词向量\vec{u}_w\vec{v}_w

注意:\vec{u}_w是skip-gram模型隐藏层权重矩阵对应的向量,\vec{v}_w是skip-gram输出层的权重矩阵对应的向量。skip-gram隐藏层的输入是one-hot向量。因此,其输出也是隐藏层权重矩阵中对应的向量。

\vec{u}_{wt}\vec{v}_{wt}为单词w_tw_c对应的向量。因此,得分可以是单词向量和上下文向量的标量内积:s(w_t, w_c) = \vec{u}_{wt}^T\vec{v}_{wt}

Subword model

通过使用不同的向量表示每个单词,skip-gram模型忽略了单词的内部结构。为了考虑到这种信息,文章提出了一种不同的得分函数s

每个单词w被表示为n-gram字符袋(bag of character n-gram)。特殊的约束符号<和>分别加在单词前和单词后,使得能够将前缀和后缀与其他字符序列区分开来。同样,为了学习每个单词的表示(除了n-gram字符),单词w自身也被包括在其n-gram字符袋中。例如,令n=3,单词"where"被表示为下面的n-gram字符:
<whwhehererere>
以及特殊的序列
<where>

值得注意的是,对应单词“her”的序列<her>和来自单词“where”的her是不同的。实际上,文章提取n大于等于3以及小于等于6的所有n-gram。这是一种非常简单的方法,可以考虑不同的n-gram集,例如采用所有前缀和后缀。

给定一个大小为G的n-gram字典。给定一个单词w,假设G_w\subset\{1,...,G\}为出现在w中的n-gram字符集。每个n-gram字符g与一个向量表示\vec{z}_g关联。单词被表示为其所有n-gram字符对应的向量表示之和。因此新的得分函数为:

s(w_c) = \sum_{g\in G_w}\vec{z}_g^T\vec{v}_c

这个简单的模型允许跨单词共享表示,从而允许学习罕见单词的可靠表示。

为了满足模型的内存要求,文章使用一个哈希函数,将n-gram字符映射到1到K的整数中。我们使用Fowler-Noll-Vo哈希函数(特别是FNV-1a变体)对字符序列进行哈希处理。最终,一个单词由它在单词字典中的索引和它所包含的哈希化的n-gram字符集来表示。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容