Model
模型在考虑形态(morphology)的同时,学习单词表示。通过考虑子词单元并将单词表示为其字符n-grams之和,作者对形态进行建模。下面,将开始介绍训练词向量的一般结构,随后介绍子词模型,最后介绍如何处理n-grams字符字典。
General model
首先对continuous skip-gram模型进行回顾。给定一个大小为的词汇表,其中每个单词由其对应的索引表示。目标任务是为每个单词学习一个向量表示。受分布假设(distributional hypothesis)的启发,词表示被训练来预测在其上下文中出现的“恰当”单词。正式地,给定一个被表示为词序列,……,的大型训练语料库,skip-gram模型的目的是最大化下面的log-似然:
其中上下文是单词周围单词的索引。在给定下,观察一个上下文单词的概率将使用前面提到的单词向量进行参数化。从现在起,给定一个得分函数,其将(单词,上下文)对映射到空间上的得分。定义一个上下文单词概率可使用softmax:
然而,该模型意味着,给定一个单词,仅预测一个上下文单词。
预测上下文单词的问题可以改为一组独立的二元分类任务。因此,目标是独立地预测上下文单词的存在(或不存在)。对在位置的单词,将其所有上下文单词作为正样本,其随机从词汇表中取样负样本。对在位置为的上下文单词,使用二元logistic损失,将获得以下的负对数似然:
注意:这里每个正样本对应的是一组负样本!!!
其中,是一组从词汇表中采样的负样本。令为logistic损失函数,上式可写为:
单词和上下文单词之间的评分函数的自然参数化是使用单词向量。在词汇表中的每个单词上定义了上的两个单词向量和。
注意:是skip-gram模型隐藏层权重矩阵对应的向量,是skip-gram输出层的权重矩阵对应的向量。skip-gram隐藏层的输入是one-hot向量。因此,其输出也是隐藏层权重矩阵中对应的向量。
令和为单词和对应的向量。因此,得分可以是单词向量和上下文向量的标量内积:。
Subword model
通过使用不同的向量表示每个单词,skip-gram模型忽略了单词的内部结构。为了考虑到这种信息,文章提出了一种不同的得分函数。
每个单词被表示为n-gram字符袋(bag of character n-gram)。特殊的约束符号<和>分别加在单词前和单词后,使得能够将前缀和后缀与其他字符序列区分开来。同样,为了学习每个单词的表示(除了n-gram字符),单词自身也被包括在其n-gram字符袋中。例如,令,单词"where"被表示为下面的n-gram字符:
,,,,
以及特殊的序列
。
值得注意的是,对应单词“her”的序列和来自单词“where”的是不同的。实际上,文章提取大于等于3以及小于等于6的所有n-gram。这是一种非常简单的方法,可以考虑不同的n-gram集,例如采用所有前缀和后缀。
给定一个大小为的n-gram字典。给定一个单词,假设为出现在中的n-gram字符集。每个n-gram字符与一个向量表示关联。单词被表示为其所有n-gram字符对应的向量表示之和。因此新的得分函数为:
这个简单的模型允许跨单词共享表示,从而允许学习罕见单词的可靠表示。
为了满足模型的内存要求,文章使用一个哈希函数,将n-gram字符映射到1到的整数中。我们使用Fowler-Noll-Vo哈希函数(特别是FNV-1a变体)对字符序列进行哈希处理。最终,一个单词由它在单词字典中的索引和它所包含的哈希化的n-gram字符集来表示。