Pik是单词i出现在含有单词k的文本中的概率=Xij/Xi(X是次数)。这个比率很有意义,能揭示两个单词之间的关系。
因此,需要建立一个表达式来计算这个比率。
目的是要寻找最优的词向量Wi,使得对这个向量的计算之后的结果更接近于真实的比率。
以上都是推导过程,在算法中体现的只有下式(损失函数)。
损失函数:
f是自定义的权重。
该方法的最坏复杂度是O(C) 远小于word2vec的O(V^2)
Pik是单词i出现在含有单词k的文本中的概率=Xij/Xi(X是次数)。这个比率很有意义,能揭示两个单词之间的关系。
因此,需要建立一个表达式来计算这个比率。
目的是要寻找最优的词向量Wi,使得对这个向量的计算之后的结果更接近于真实的比率。
以上都是推导过程,在算法中体现的只有下式(损失函数)。
损失函数:
f是自定义的权重。
该方法的最坏复杂度是O(C) 远小于word2vec的O(V^2)