LDA临时笔记,待整理

学习建议:

从大方向上把握LDA

1、先了解主题模型的历史
可以通过了解主题模型的历史,从基于统计学分布的一元模型,多元混合模型,到基于贝叶斯的一元模型。再到pLSA,再到基于贝叶斯的LDA。
参考https://blog.csdn.net/pipisorry/article/details/42560693

2、再了解pLSA与LDA可以用来干什么
对于M篇文档,通过模型的计算,可以得到M篇文档中每一个文档下的主题分布,每一个主题下的单词分布。
用处1,可以用此来得到每个文章之间的相似性(计算主题向量之间的距离即可,越小的说明越相似)。用处2,可以用来的到一篇文档的关键词(不同主题下的前几个概率最大的词)
注意pLSA是统计观点,是通过EM算法求得。而LDA是贝叶斯观点,通过Gibbs或者变分EM算法可以求解得到模型参数。参考http://www.cnblogs.com/pinard/p/6873703.html

而对于新来的一篇文章,怎样计算得到该文章的主题分布呢?
pLSA类似于朴素贝叶斯, 仍然需要统计各种东西然后按照EM算法的到的参数公式进行计算。
而LDA则通过Gibbs采样的前半部分可以得到其主体分部。参考http://www.cnblogs.com/pinard/p/6873703.html

以上就是LDA基本原理,弄懂就可以调用LDA包了。要是想深挖下面的理论,还需要弄清许多推导的细节。

3、再具体了解LDA中的几个基本概念都是什么。

4、最后再看看LDA模型是怎么得到以及怎么求解参数(gibbs采样)的。参考https://blog.csdn.net/yhao2014/article/details/51098037


LDA要干的事情:根据给定的一篇文档,推测其主题分布。
狄利克雷分布,被称为是分布的分布。

从一个分布中采样,得到的就是一个随机变量X。
从一个分布的分布中采样,得到的就是关于X的分布。然后再从X的分布中采样,才能得到随机变量X。

对图片中四句话的解释:
狄利克雷分布 是多项式分布的 共轭先验分布。也就是说,已知先验概率,是可以对X进行采样的。

主题符合多项式分布。于是,先采样的到主题的分布。
再从主题的分布中采样的到第j个单词的主题。
单词符合多项式分布,再从狄利克雷beta中采样得到单词的分布
再从单词的分布中采样得到单词。

顺序统计量中Xk的分布。先计算落在[x,x+detax]的概率。
通过上述推论,在区间中有一个X落在[x,x+detax]中的概率是P(E)。而这个X的取值可能有n个,所以情况会有Cnn-k种。

超过两个的额情况就是高阶无穷小。

于是可知落在区间中的概率,而连续分布的概率密度,可以通过极限求得。

1、最终发现这个可以与gama函数联系起来。然后推出了beta分布。

2、beta分布中,beta是二项分布的共轭先验分布,这一点从知乎,如何通俗理解beta分布中可以得到结论。

经过最终计算beta的期望,发现最终E(p)等于alpha\alpha+beta,服从beta分布的随机变量的均值,都可以通过这个期望来得到。

EM算法,推导过程也挺简单,可以特意记一下公式。最终的参数jesen不等式,得到的参数值。

对于pLSA算法,认为参数theta是固定参数,设定好参数以后,最终可以对此参数采用EM算法,估计得到模型的两个参数,使得能够满足极大似然,从而可以用于估计,分类。

注意,此时pLSA没有考虑先验分布。而LDA考虑了先验分布,所以才需要加上两个先验概率。

image.png
image.png
image.png

最终求得狄利克雷概率分布的期望值(知道其中任意元素的期望值,也就是一系列的概率分布值也确定了)。

而alpha,beta参数也已知
所以,通过gibbs采样,得到了两个狄利克雷分布。LDA模型需要的参数就已经知道啦。

LDA中,先根据狄利克雷分布,采样产生主题分布,再根据主题分布产生主题。(多了一步采样产生主体分布。因为在pLSA中认为主体分布是固定的参数,不需要采样的。)
再查查LDA在文本分类上的应用。

得到模型的参数以后,就可以对文本求得后验概率,每个文本属于某一个主题的概率也就可以确定了。主题相似的文本相似度就高。

LDA模型的一个简单应用。

应用:将LDA模型应用于1篇文档,进行关键词抽取。

方法与原理依据:LDA模型能够得到每个主题生成每个词的概率,那么我们可以把每个主题中的TopK个词取出来作为该文档的关键词(移除重复出现的词)。
对上面这句话的理解,就是,比如我们假定有5个主题,那么我们可以根据LDA算出这篇文档属于这五个主题的概率。然后这5个主题生成词的概率我们也能知道,比如第1个主题生成每个词的概率我们能够得到,我们就取前两个或者三个词作为这个文本的关键词。同理我们能得到十个或者十五个关键词,再去重,取权重,就能得到这个文档的关键词了。

与pLSA相比,贝叶斯化带来的好处。

对于一篇新的文章,通过gibbs采样,即可得到
这篇文章的主体分布的参数。即可进行

这个利用看到的文档推断其隐藏的主题(分布)的过程(其实也就是产生文档的逆过程),便是主题建模的目的:自动地发现文档集中的主题(分布)。

怎么进行目的呢?即求得主题分布呢?

pLSA中,把已知概率p(w,d)用两个与主题有关的概率参数表示,然后利用极大似然函数,此时,未知参数与极大似然函数都已经具备,就可以进行EM算法了。

https://www.cnblogs.com/fengsser/p/5836677.html

LDA的使用是上述文档生成的逆过程,它将根据一篇得到的文章,去寻找出这篇文章的主题,以及这些主题对应的词。

是不是可以认为,在得到样本x以后,就可以得到后验分布theta了,相当于一直x以后,该文档的主题也就都可以求得了。

pLSA的通过EM算法求解,我们会得到两分参数的估计。根据这两个估计,我们可以求得每个文章中的主题分布,每个主题下的单词的分布。
如下,其中LDA与pLSA类似。

对于下图中的pLSA,在已经训练,得到这两个参数以后,基于统计的思想,我们认为,这两个参数是不变的。因为是矩阵,我们甚至可以求得每个文档下的主题分布,每个主题下的词的分布。

类似于朴素贝叶斯,需要对许多数据进行统计,然后求得参数。
而对于来了一篇新的文章,想要得到该文章的主题分布,以及主题下词的分布。就可以利用这两个公式进行计算了。k等于5的话,文档i下面我们就能得到5个theta。



LDA的求解方法:因为LDA基于贝叶斯学派的观点,所以用别的算法估计这两个参数十分麻烦,可以用变分EM算法或者gibbs采样可以求得这两个参数。

![](http://upload-images.jianshu.io/upload_images/5945886-edbbad45fdd675af?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

而对于新的一篇文档,要得到文档的主题分布,也是用gibbs采样的前半部分求得。参考http://www.cnblogs.com/pinard/p/6867828.html


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335