词向量技术将自然语言中的词转化为稠密向量,使得相近的词有相似的向量表示,方便后续在向量的基础上做运算,进一步挖掘文本之间的潜在关系。
在传统的机器学习模型构建中,我们常使用one-hot编码来表示离散特征。在词表达方面,如果我们也用one-hot来做,将会得到一个高维且稀疏的向量表达。如词典中有一万个词,每个词的向量表示都是一个对应位置的1和9999个0。而深度学习的特点以及工程方面的原因使其不利于稀疏特征向量的处理,所以我们需要把高维稀疏向量映射到低维空间的稠密向量。
2013年Google推出了用来产生词向量的模型——word2vec。模型为浅层双层的神经网络,用来训练以重新构建语言学之词文本。网络以词表现,并且需要猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完之后,word2vec模型可用来映射每个词到一个向量,可用来表示词与词之间的关系。
word2vec的核心思想是通过词的上下文得到词的向量化表示。有两种方法:CBOW(通过附近词预测中心测)、Skip-gram(通过中心词预测附近的词)。网络结构如下图:
CBOW在已知上下文的前提下预测当前词,学习的目标函数是最大化对数似然函数:
Skip-gram在已知当前词的前提下预测其上下文,目标函数形如:
同样用于计算概率值,从模型的计算方式看,skip-gram想要预测更多(上下文),一次会更比CBOW慢一些,但有观点认为对低频词效果更好一些
下面我们基于skip-gram算法来一探究竟。我们的语料文本是:The quick brown fox jumps over the lazy dog. 如下图所示,定义一个大小为5的滑动窗口,从第一个词开始逐个往后滑动,这就有了中心词和邻近词对。如(the, quick),(the, brown), (quick, the)等等,这些就是我们的训练数据。
注意,滑动窗口大小是可调整的,我们这里为了简单举例窗口大小为5。一般来说,取10是比较好的经验值,也就是左右各取5个单词。
到这里我们有了训练数据,但是这里的词对是不能直接输入神经网络的。这里解决方法很简单,直接用one-hot编码。因为我们的词典里面有8个词,所以我们把每个单词都表示成一个8维向量。比如单词the的one-hot编码为(1, 0, 0, 0, 0, 0, 0, 0),quick的one-hot编码为(0, 1, 0, 0, 0, 0, 0, 0)。当我们把the输入时,希望网络也能输出一个8维向量,并且第2维尽可能接近1,其他维尽可能接近0。也就是让神经网络告诉我们,quick更可能出现在the的周围。并且我们还希望这8维向量所有位置的值相加为1。这样就可以认为这个8维向量描述的是一个概率分布,正好我们的y值也是符合概率分布(一个位置为1,其他为0)。基于此,我们就可以用交叉熵来衡量神经网络的输出与y的差异,也就定义出loss function了。
有了以上信息,我们就能定义出如下的网络结构(图借鉴于10000个单词的300维向量):
注意这里隐藏层并没有激活函数,但是输出成用了softmax,保证输出向量是一个概率分布。
隐藏层的神经元应该设置多少个?这取决于我们希望得到的词向量的维数,google给出的经验值是300。还是回到我们的例子中来,假设我们的隐藏层神经元有3个,那隐藏层的权重就是一个8行3列的矩阵。网络训练完成后,隐藏层权重的每一行代表一个词向量。
因此我们只需要保存隐藏层的权重矩阵,又因为输入是one-hot编码,所以用输入向量乘以这个权重矩阵就得到了对应的词向量(如下图示例)。
输出层的神经元数量和语料库中的单词数量一样。每一个神经元可以认为对应一个单词的输出权重,词向量乘以输出权重得到一个数,代表了输出神经元对应的单词出现在输入单词周围的可能性大小,通过对所有的输出层神经元的输出做softmax,我们就把输出层归为一个概率分布了。
上面说的是Skip-gram算法流程,CBOW的计算流程也基本差不多,不同之处在于隐藏层不再是取一个词的词向量各维,而是上下文C个词的词向量各维的平均值。
到这里,word2vec的流程我们是大概搞清楚了。上面的做法在实践过程中会有一些问题:首先,按照google的做法词库有10000个词,词向量设置300维,虽然我们的网络比较浅,但是我们一共需要训练2x300x10000个参数,加上庞大的训练数据,我们的训练过程会比较慢;其次,输出层采用softmax算概率分布,因为指数计算的复杂度比较高,一旦词典比较大,这里的效率会极其低下。
针对上面的问题,原论文里面给出一些优化的方法,这里我们主要看几个:
1、对高频词进行采样
在我们构建训练数据的时候,有些高频词实际上对其他词的预测并没有产生积极作用,反而无端增加了训练样本。比如"The quick brown fox jumps over the lazy dog.",在这句话中"the"出现了两次,但是它并不构成fox的context,在其他的训练数据中也会大量出现这个词,所以这里我们可以做subsampling. 当扫描文本时,根据一定的概率删除这个词。这个概率大小取决于这个词在整个语料库中出现的频率,出现频率越高,删除该词的概率越大。原论文给出的概率是:
是词在语料库中出现的频率,t是一个给定的阈值,通常给左右。
2、负采样
负采样的目的是为改善在预测每一个词的概率时,普通softmax需要累加一次归一化项带来的高计算成本问题。其核心思想是把对每一个词概率的预测都转化为小规模的监督学习问题。
还是拿上面的例子说"The quick brown fox jumps over the lazy dog. ",选取fox为上文,然后把预测为jumps标记为1(正样本),再选取句子中的k个其他词为负样本,类似:(fox, apple),(fox, book)这种。再将采样到的这些样本用来训练一个逻辑回归模型,在预测fox一词下文出现的词的概率时,每次迭代softmax的计算量就下来了。这里k的取值,原论文中提到如果语料库比较大一般取5-20之间;如果语料库比较小,k取5以内。
上面提到对负样本进行采样,这就涉及到概率的问题,原论文中给出一个经验值:
3、Hierarchical Softmax
Hierarchical Softmax也是为了降低概率的计算复杂度。作为一种计算高效的近似方法,Hierarchical Softmax被广泛使用。Morin和Bengio[1]首次将这种方法引入神经网络语言模型。该方法不用为了获得概率分布而评估神经网络中的W个输出结点,而只需要评估大于个结点。Hierarchical Softmax使用一种二叉树结构来表示词典里的所有词,V个词都是二叉树的叶子结点,而这棵树一共有V-1个非叶子结点。
首先以词典中的每个词在语料中出现的次数为权重,构建一棵哈夫曼树,叶子结点为词典中的每个词的one-hot表示,每个非叶子结点也表示为一个向量。此时,从根结点到每一个叶子结点的路径都可以由一串哈夫曼编码来表示。
在预测过程中,每一个非叶子结点都用自身的向量表示来做一次二分类(如使用逻辑回归),分类的结果便导向其是去到左结点还是有结点。此方法在预测某一个特定的词的概率时就只需考虑从根结点到该叶子结点这几步了,使预测效率大大提升。
例如到达非叶子结点n的时候往左边走和往右边走的概率分别是:
以上图中目标词为例,
到这里可以看出目标词的概率可表示成:
其中L(w) 表示 从根节点到w 的路径长度,是非叶子结点n(w,j)的向量表示(即输出向量);h是隐藏层的输出值,从输入词的向量中计算得来;sign(x,j)是一个特殊函数定义:
此外,所有词的概率和为1:
参考:
http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
http://mccormickml.com/2017/01/11/word2vec-tutorial-part-2-negative-sampling/
https://arxiv.org/abs/1411.2738