概率潜在语义分析PLSA,是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。
最大特点:
- 用隐变量表示话题
- 整个模型表示文本生成话题,话题生成单词,从而得到单词一文本共现数据的过程。
假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
概率潜在语义分析受潜在语义分析的启发,前者基于概率模型,后者基于非概率模型。
一、概率潜在语义分析模型
1、基本想法
给定一个文本集合,每个文本讨论若干个话题,每个话题由若干个单词表示。
对文本集合进行概率潜在语义分析,就能够发现每个文本的话题,以及每个话题的单词。
话题是不能从数据中直接观察到的,是潜在的。
文本集合转换为文本-单词共现数据,具体表现为单词-文本矩阵
文本数据基于如下的概率模型产生(共现模型):
- 首先有话题的概率分布
- 然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。
概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义
直观上,语义相近的单词、语义相近的文本会被聚到相同的“软的类别”中,而话题所表示的就是这样的软的类别。
2、生成模型
一个文本的内容由其相关话题决定,一个话题的内容由其相关单词决定。
生成模型通过以下步骤生成文本-单词共现数据:
生产模型中,单词变量w 与文本变量d 是观测变量,话题变量z是隐变量。
模型生成的是单词-话题-文本三元组(w,z,d)的集合,但观测到的是单词-文本二元组(w,d)的集合。
观测数据不是为单词-文本矩阵T的形式。
矩阵T的行表示单词,列表示文本,元素表示单词-文本对(w,d)的出现次数。
生成模型属于概率有向图模型,可以用有向图表示。
3、共现模型
可以定义与以上的生成模型等价的共现模型。
虽然生成模型与共现模型在概率公式意义上是等价的,但是拥有不同性质:
4、模型性质
(1)模型参数
(2)模型的几何解释
(3)与潜在语义分析的关系
概率潜在语义分析(共现模型)可以在潜在语义分析模型的框架下描述
图中显示潜在语义分析,对单词-文本矩阵进行奇异值分解得到
共现模型矩阵乘积的形式
二、概率潜在语义分析的算法
EM算法是一种迭代算法,每次迭代包括交替的两步:
- E步,求期望
E步是计算Q函数,即完全数据的对数似然函数对不完全数据的条件分布的期望 - M步,求极大
M步是对Q函数极大化,更新模型参数。