《Unsupervised Word and Dependency Path Embeddings for Aspect Term Extraction》阅读笔记

文章来源:IJCAI-16


based on unsupervised learning of distributed representations of words and dependency paths.

基本idea:在依存空间中,通过依存路径连接两个词

在低维空间优化了w1+r约等于w2,而多条依存路径被当做a sequence of grammatical relations and modeled by a recurrent neural network。考虑线性上下文和依存上下文信息的embedding features,基于CRF的aspect term extraction。

结果:1) 在单embedding features的情况下,有好的结果 2) 在word yields增加句法信息(syntactic information)有更好的表现。


主流的方法:1) The unsupervised(or rule based) methods rely on a set of manually defined opinion words as seeds and rules derived from syntactic parsing trees to iteratively extract aspect terms. 无监督方法,依赖手动定义的opinion词和通过句法树学习的规则。 2)The supervised methods将ATE问题看做a sequence labeling problem,并且conditional random field(CRF)是主流的方法。

representation learning:1) word embeddings 2) structured embeddings of knowledge bases


本文: focus on representation learning for aspect term extraction under an unsupervised framework. 通过学习distributed representations of words and dependency paths from the text corpus. 

The learned embeddings of words and dependency paths are utilized as features in CRF for aspect term extraction.

问题:The embeddings are real values that are not necessarily in a bounded range.

本文:首先map the continuous embeddings into the discrete embeddings and make them more appropriate for the CRF model.将连续的embeddings map到分离的embeddings。 然后,构建embeddings features包括the target word embeddings,线性上下文embedding和dependency context embedding for aspect term extraction。


Related Work:

无监督学习:关联规则挖掘association rule mining,除此之外,使用opinion words来提取不频繁的aspect terms。 dependency relation is used as crucial clue,double propagation method双传输方法可以迭代的提取aspect terms和opinion words。

监督学习:主流方法还是CRF。Li et al.[2010]提出了一个新的在CRF上的机器学习框架,结合extract positive opinion words,negative opinion words和Aspect terms。

dependency paths:包含丰富的词语间的语言信息

本文:learn the semantic composition of dependency paths over dependency trees.


Method:

首先从dependency trees提取triple(w1, w2, r),w1和w2是两个词,the corresponding dependency path r是从w1到w2的最短路径并且包括a sequence of grammatical relations.

We notice that considering the lexicalized dependency paths can provide more information for the embedding learning.但是,需要记住更多的dependency path frequencies for the learning method(负采样)。dependency paths是(考虑n-hop dependency paths)

  

|Vword|是words集的个数,大于十万个,Vdep是语法关系集,|Vdep|大约是50

损失函数:


损失函数

C1表示从dependency trees提取的三元组,dependency trees从text corpus提取,r是a sequence of grammatical relations,(g1, g2, ..., gn),n是r的hop number,gi是r中第i个语法关系,并且p(r)是r的边缘分布。损失函数确保三元组(w1, w2, r)有更高的排序分数,比随机挑选的三元组(w1, w2, r')。ranking score衡量:inner product of vector r/r' 和 vector w2-w1。

让Recurrent neural network学习the compositional representations(组合表示) for multi-hop dependency paths. 组合运算通过矩阵W实现:

f是一个hard hyperbolic tangent function(hTanh), [a;b]是一个两个向量的连接,gi是gi的embedding。设置h1=g1然后迭代composition operation得到最后的r=hn。hop number是小于等于3的,因为设置更大会很费时间。


Multi-task learning with linear context:

线性上下文,基于distributional hypothesis分布假设,假设在相似上下文的词有相似的意义。inspired by Skip-gram,enhance word embeddings 通过最大化prediction accuracy of context word c that occurs in the linear context of a target word w。每个词有两种角色,the target word and the context word of other target words.


模型训练:

负采样用于训练embedding model


Aspect Term Extraction with Embeddings:

CRF

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容

  • 有人将您比座高山,我说不,他比山还要高,有人将您比做大海,我说不,他比海还要宽,有人说您严厉,我说不,那是爱的体现...
    小猪菲菲_f8bb阅读 311评论 0 0
  • 我一直写写写,也就是写在自己的日记本上。这么多年下来,最多的就是那一摞日记本。我自己也没有正经写过什么文章,也没有...
    国宴阅读 340评论 7 5