原文:
From Word Embeddings To Document Distances
[Kusner,ICML15]
给定基于word2vec embedding (Mikolov et al., 2013a;b )矩阵 X(Rd*n),词库大小为n,第i列xi代表第i个单词在d维空间的embedding(word embedding可译为词嵌入)。
假定文本被表示为归一化后的nBOW向量(normalized bag-of-words vectors),如果单词i在文档中出现了ci次那么di=ci/(sum(ck)).
nBOW有个不足的地方:首先我们可以将向量d看为n-1维空间中的一个点,两个文档如果没有相同的词那么这两个文档的相似程度在nBOW的算法下就会成为0,这显然存在这不合理的地方。即未考虑语意,导致每个单词在向量空间中处于互相正交的状态,个人感觉做法与先对句子分词然后对句子里的词语进行one-hot编码,最后进行相关性计算类似。
WMD的目的就是希望将词语间的语意给考虑进来再进行计算句子的相似性。(incorporate the semantic similarity between individual word pairs into the document distance metric).
接下来引入一个概念 Word travel cost,通过欧式距离来计算词i与词j之间的语意不相似程度,记为c(i,j)(c(i,j)为词i的word embedding 与词j的word embedding的l2范数).
Document distance 就是基于Word travel cost 进行的求极小值的运算,算是一个MATH target。让d和d'代表两个文本,我们考虑如何将document d转移到document d'。对每一个在d中的词i,我们将其转移成d'中的词j ,需要花费一个word tavel cost 。而且在word embedding给定的情况下我们的word travel cost是确定的。
这样我们可以求解一个约束方程:
min T≥0 【sum i,j=1 Tij c(i, j)】
subject to:
sum j=1 Tij = di ∀i ∈ {1, . . . , n}
sum i=1 Tij = dj' ∀j ∈ {1, . . . , n}
上述目标函数的值即为我们所需的文档之间的相似性,而且能很好地将语意考虑到相似性的计算里面。解上述问题可以参考 (Ling & Okada, 2007; Pele & Werman, 2009)。上述问题也为EMD的一个特殊案例(earth mover's distance metric)(Monge, 1781; Rubner et al., 1998; Nemhauser & Wolsey, 1988),且由于c(i,j)为一个度量,我们这里计算的只不过是c(i,j)的一个加权,所以这里的document metric 仍然为一个度量。
该种算法求解的时间复杂度为O(p3logp),比较费时,顾原文作者引入了一个新的度量WCD(Word centroid distance),只需要进行矩阵乘法就能快速的计算出一个WMD的下界,但是这个下界并不紧致。作者在原文中还提出可以通过抽走一个限制条件来加速运算,也是算一个下界近似来替代WMD(如果将两个限制条件都抽走,我们会得到什么结果呢?对,不管咋算我们都可以得到min为0,只要所有的T为0就行了)。