待整理
假设文档是由n个词组成的,且不考虑词之间的关系,假设我们的词典有V个词语,v1,v2,...vv,那么最简单的文本生成方法是:
每次从词典库中随机挑出一个词语,直到n个词挑完。
这里假设文档的生成服从多项式分布
比较
PLSA与基于kl散度的NMF是等价的,同时也是一种特殊的LDA模型。也有论文讨论了LDA模型与PLSA的近似关系。
[3]. On the equivalence between Non-negative Matrix Factorization and
Probabilistic Latent Semantic Indexing
[4]. The Relationships Among Various Nonnegative Matrix Factorization ethods for Clustering