《An unsupervised neural attention model for aspect extraction》阅读笔记

论文来源:ACL2017  链接:http://www.aclweb.org/anthology/P/P17/P17-1036.pdf

Aspect extraction,现有的方法使用多种主题模型topic models,但是这些方法不能产生一致的aspect(coherent aspect)。本文提出了一个novel neural approach(新颖的神经网络方法),为了发觉连贯的aspect(coherent aspect)。通过神经网络的word embeddings来获取词共现的分布(the distribution of word co-occurrences)。不像主题模型,只使用独立的词,word embedding模型可以使有相似上下文的词在embedding空间中的距离更近。除此之外,使用attention机制在训练的时候来削弱不相关词。本文的方法可以提取出更有意义和相关的aspect。


Aspect提取有两个子任务:(1)提取所有aspect terms (2)aspect terms的聚类,例如beef, pork 都是food类的。

以前的aspect extraction可以分为三种方法:(1)rule-based,经常不将提取的aspect terms分组到具体的类别中(2)有监督的学习:数据标注,收到领域应用的限制。(3)无监督学习避免了数据标注的麻烦。

近些年,LDA(Latent Dirichlet Allocation)和其变形体成为主宰了aspect extraction的无监督学习。LDA模型对主题(aspects)的建模,主题作为词种类的分布。LDA发现的the mixture of aspect可以很好的描述一个corpus,但是单个aspect的提取是很差的---aspect经常包含不相关的词或者很低关联度的concepts。         ~~~可能有两个原因:(1)传统LDA模型不直接encode word co-occurrence 统计,而是优先主题的coherence。(2)隐式的提取patterns,通过文档级别的word generation建模,假设每个词是generated independently。 除此之外,LDA模型是估计每个文档的主题分布,如果文档很短,使得估计主题分布更加困难。

本文的方法:1. 利用word embedding,已经提取了词的上下文信息。  2. 使用attention机制来过滤word embeddings,然后利用过滤后的word embedding来构建aspect embedding。3. 训练过程 for aspect embedding与autoencoders相似,本文使用降维的方法去提取embedded句子和重构后的每个句子的common factors,通过一个线性的combination of aspect embeddings。attention机制削弱了没有出现在aspect中的词,使得模型更关注在aspect词。

Attention-based Aspect Extraction(ABAE)

ABAE



Related Work:

过去的方法:寻找频繁项,提取opinion terms通过WordNet中的同义词反义词。  频繁项集挖掘,dependency information。  依赖于提前定义好的规则,只在一少部分名词上work的比较好。

监督学习方法:转换成序列标注问题,使用HMM和CRF,分别使用一组手动提取的特征。最近的,使用自动学习特征,CRF-based aspect extraction。监督学习需要大量标注的数据。并且基于规则的模型通常不够细致,对提取的aspect terms分类。

无监督学习的方法:主题模型,这些模型的输出是word distributions或ranking for aspect。aspect的获取往往没有分离的提取和分类。最近也有一篇是利用RBM来同时提取aspect和sentiment,将aspect和sentiment作为RBM中分离的隐藏节点,然而这个模型依赖于先验知识,例如part-of-speech(POS) tagging词性标注和sentiment lexicons情感词典。   A biterm topic model(BTM)可以生成co-occurring word pairs。

Attention模型被使用在机器翻译,句子总结sentence summarization,情感分类 sentiment classification和问答。不是利用所有的信息,attention模型关注相关信息。


模型:

最终的目标是学习一组aspect embeddings,每个aspect可以理解为在embedding space中查找最近的词。

每个词的embedding是d维向量,所有词的embedding矩阵 E 是V*d的,V是vocabulary的大小。aspect的embedding与word embedding共享同一个空间,aspect的embedding T 是K*d的,K远小于V。aspect embedding用于近似在vocabulary中跟的aspect词,aspect词通过attention 机制过滤。

第一步,通过attention机制降低non-aspect的权重,构建sentence embedding zs from weighted word embeddings。

第二步,用来自T的aspect embedding线性组合重新构建句子embedding,这样进行了降维和重新构建rs。

ABAE想要将转换zs到重新构建的rs,使用最少的变型,保存最多的信息。


Sentence embedding with Attention Mechanism:

sentence embedding

ai通过attention模型计算:

attention模型计算ai

ys是word embedding的平均值,可以捕获句子global的上下文。M是一个权重矩阵d*d的,可以将global的上下文ys与word embedding进行映射,通过学习获得。

认为attention机制分为两步:给定一个句子,首先计算它的平均embedding,然后每个词的权重需要考虑两点:第一是transformation M可以过滤word,这些word可以捕获和K aspect的关系。然后我们捕获过滤后的word和sentence之间的关系,通过过滤后的word和global context ys之间的内积。


Sentence Reconstruction with Aspect Embeddings:

重构句子embedding,包括两步,类似autoencoder,线性连接T

重构后的rs


softmax

目标函数:

最小化重构误差,使用contrastive max-margin objective!!!!

对每个句子,从训练集中随机采样m个句子, randomly sample m sentences from our training data as negative samples。  每个负采样为ni,通过计算每个词的word embedding的平均值。

目标是使重构的embedding rs与目标句子embedding zs相似,虽然与这些样本不同。所以,没有正则化的目标函数J,is formulated as the hinge loss that最大化rs和zs之间的内积,同时最小化rs和负样本之间的内积。

目标函数

D是训练集,参数是

参数



正则化:

embedding matrix T可能会遇到redundancy。encourage the uniqueness of each aspect embedding:

正则项

I是单位矩阵。Tn是将T的每行归一化为1。任何在Tn*TnT中的非对角的元素tij(i不等于j)都与两个不同的aspect embeddings的内积相关联。当任意两个不同的aspect embedding的内积是0的时候,U达到最小值。所以正则化可以使aspect embedding 矩阵T中每行aspect的正交化,同时惩罚不同aspect向量之间的redundancy。最终的目标函数为:

最终目标函数



Evaluation:

根据两个标准来判断ABAE:

是否能够找到meaningful和semantically coherent aspect?

是否能改进aspect identification performance on 真实的评价数据集

Coherence Score:

coherence score

评价aspect的质量,一个aspect z, 和a set of top N words of z,Sz。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容