主题提取技术从是否需要监督角度考虑可以分为基于监督的主题提取和基于非监督的主题提取:从提取的内容角度,认为分为粗粒度的主题提取(如提取主题段落和主题句)和细粒度的主题提取(如主题词、关键词提取);从面向对象不同的角度看,可以分为基于单文档的主题提取和基于多文档的主题提取;根据所用方法的不同,可以分为基于加权算法的主题提取、基于主题概率模型的主题提取和基于本体或知识库的主题提取。其中,基于主题概率模型的主题提取和基于本体或知识库的主题提取都在一定程度上体现了挖掘文档的词汇间的语义关系,因此这两者又可以合称为基于语义的主题提取技术[52]。浪微博社交网络主要依靠LDA模型[53]对瞬时间产生的大量数据进行一个主题提取。
[1][52]杨春艳,潘有能,赵莉.基于语义和引用加权的文献主题提取研究[J].图书情报工作, 2016, 60(9):131-138.
[2][53] Blei D,Ng A,Jordan M. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003 ( 3 ) : 993- 1022.
崔金栋, 杜文强, 关杨,等. 微博用户信息个性化推荐主题模型LDA演化分析研究[J]. 情报科学, 2017(8):3-10.