Hidden topic-emotion tansition model for multi-level social emotion detection

1.Motivation

    social emotion detection ,主要集中于预测读者的emotion,针对这个任务,有很多基于图模型的,将emotion看作是隐藏的变量。

    1.并且一般都使用Bag-of-words的假设:忽略了词的顺序、文档中的每个词的sentiment/emotion分配不依赖于之前的单词的sentiment/emotion分配。这样简单的假设忽略了文档中的结构性信息,然而这些信息对于social emotion detection 是非常重要的。2.只是在一个level上检测emotion

2.related work

    社交情感检测主要有两种方法:

1.discriminative model based

    把任务变成了情感分类问题

2.topic model based

    将sentiment或者social emotions当作是隐含的变量,在topic model中加入了一个sentiment/emotion层。

3.topic models for sentiment analysis

Hidden topic Markov model(HTMM)对单词的topic进行建模,将文档中单词的topic作为马尔可夫链,topic transition 只能发生在句子之间,Hidden topic sentiment model (HTSM)扩展了HTMM,将句子的aspect和情绪标签的组合作为马尔可夫链。它假定一个句子中的单词具有相同的aspect标签和情绪标签,并限制transition,假定只有一个情绪极性可以与文档中的特定aspect相关联。

本文的模型是受到HTSM 的启发,但是和HSTM 有几点不同:

①HSTM只考虑了两种情感极性,简单地将emotion transition当作一个switch变量,但是TET对多种情感transition建模,考虑了情感依赖。

②HTSM使用预定义的aspect,并对带有aspect标签的文档进行训练,而我们的数据中没有此类信息;

③与HTSM的假设不同的是,HTSM假设文档中的一个主题只能与一个极性相关联,在TET中,不同的情绪可以与文档中的同一个主题相关联,因为同一个主题可以引起不同读者的不同情绪。

3.This paper

 本文中,为了充分利用document中隐含的结构性信息, 提出了topic-emotion transition model(TET),通过将连续的句子中的topic和emotion建模为马尔科夫链,

    本文中的假设:1.相同句子中的单词共享相同的emotion和topic 2.在相邻的句子之间可能有topic和emotion的转移。

    本文同时检测document和sentence level的emotion;本文学习情感transition,并在连续的句子中同时对emotion和topic transition建模

4.Method

    首先hidden TET模型将每个句子作为基本的结构单元,然后相同句子中的所有单词共享相同的topic和emotion标签,TET通过一个马尔科夫模型,在连续的句子中同时对emotion和topic transition建(为了避免BOW假设)

(1)hidden TET model

一些公式定义:

document 集合,D = {d1,d2,...d|D|}

sentence 集合, S = {s1,s2,...,smd}

{1,2,...,V} : word的V个不同的索引

{1,2,...,E} : emotion label 的索引,一共有E个不同的label

{1,2,...,T} : topic label的索引,一共有T个不同的label

对于给定的文档d,假设(文档特定的主题-情感比例)document-specific topic-emotion proportion θd是从一个共享的狄利克雷分布中提取的i.e., θd∼Dir(α)

在d中的md句子中,每一个句子都有Nsi单词,并与一个情感标签ei和一个主题标签ti相关联,这个标签是从一个特定于文档的马尔可夫链中提取出来的。

接下来,首先描述了 在呈现整体的生成步骤之前,怎样对emotion和topic transition建模

The plate diagram 

(2)topic transition

使用ψi作为switch 变量来 si-1和si之间是否有一个topic的转换

本文使用的是一些相邻句子之间的语言特征来guide主题转换

ψi =

�e是特征的权重,ft()是topic转移特征函数,si,si-1,si+1是输入,输出一个可以描述topic 转移的特征向量,

特征包括:

①si和si-1之间的cosine相似度

②si和si-1的长度之比

③si在d中的相对位置

④si和si-1与si和si+1的cosine相似度的差异性

(3)emotion transition

 τi,句子si的情感转移矩阵(E*E),为了初始化 τ,假设有一个情感词典,情感词典由一组词和它们各自的情感分布组成(情感分布:每个单词都与多个不同强度的情感标签联系在一起。)使用ES(w,e)来表示与emotion e有关的单词w的情感得分。假设一些emotion可能和其他的emotion有关联性,这种关联信息可以用来指导emotion transition的生成。

使用皮尔森系数,被用来作为测量两种emotion ej和ek之间的相互关系的概率。,λej,ek,[-1,1],0 的时候是无关,1是正相关,-1是负相关。使用(λej,ek+1)/2,使皮尔森系数的变化范围为[0,1]。




皮尔森系数作为权重,对句子si-1中的ej和句子si中的ek的情感得分的归一化并相加。

(4)Generative Process

  ψi(控制si和si-1的topic transition)、τi(si的emotion转移矩阵)、ej(si-1的emotion)、ek(si的emotion)的组合确定了topic-emotion transition:

①ψi = 0 ,j=k,si的topic和emotion label都没有变化

②ψi = 1 ,j=k,ei = ei-1,ti 不等于 ti-1

③ψi = 1 ,j不等于k,new emotion and new topic 

(5)parameter estimation

使用EM算法来评估TET模型的参数,由于TET可以看做是一个特殊的隐马尔科夫模型,所以可以在每次迭代的E-step中应用自定义的前向后向算法和Viterbi算法来积累足够的统计数据,然后在Mstep中更新参数

TET 中的隐变量是emotion label e和topic label t, emotion transition indicator τ和topic transition indicator ψ,

将句子si的(ei; ti; ψi; τi)作为document d 的马尔科夫链的隐状态,

transition function p(ei | tijτi;ei-1;ei; i; ei-1; ti-1; θ; si-1; si; �; λ; γ)


    需要迭代更新的参数是θ,ψ,小e;超参数是α,β需要人工设定,λ包含情感关联是预先计算好的。

CDd,e,t是d中和e、t有关系的word 的总数;CDw,e,t表示单词w与  情感标签e和主题标签t  关联的次数。

    在E步中,执行了前向反算法和维特比算法,并积累了足够的统计量。


在M步中,参数θ,ψ,小e被更新,小e是通过优化交叉熵loss函数来更新的


(5)Emotion Lexicon Generation from Training Data

    在TET中,情感词典的先验知识被用来计算ES和初始化ψ。

    本文使用两种方法来构建情感词典,

①使用现有的情感词典DUTIR来生成,叫作CEV。虽然有很多高质量的英文情感词典,但是中文的情感词典是很少的,CEV包含7个一级情感类别和21个二级情感类别,但是不能直接拿来用在这个任务中,因为情感分类没有一一对应上,所以进行了人工匹配。对于CEV中的item,我们将其对应情感类别的情感得分分配到0:9,并将剩下的0.1平均分配给所有其他情感类别,词典叫作lex_cev。

②第二种方法是,从训练数据中生成,Mte = Mtd * Mde,

(term-by-emotion matrix = term-by-document matrix * document-by-emotion matrix)

具体来说,

对于term-by-emotion matrix ,我们通过在训练集中使用每个文档的读者情感投票来获得它的cell value,         对于term-by-document matrix,使用不同的加权策略来设置每个cell的value,包括原始频率、归一化频率和TF-IDF,并将每一行规范化,以确保所有的值总和为1。

5.Experiments

实验数据集:news dataset 2016、


baseline 被分成两类,判别模型和topic模型

判别模型有 三个子模型:word-level models,neural network based model和KNN-like model

word-level model:emotion-term model (ET)和supervised Unigram model(SWAT)

neural network based model :CNN, CNN-SVM(使用CNN构造特征,使用SVM来分类)

KNN-like model是社交意见挖掘模型(SOMN)

topic-model based :joint sentiment/topic model(JST)、 aspect and sentiment unification model (ASUM)、emotion-topic  model (ETM), contextual sentiment topic model(CSTM)、multilabel supervised topic model、sentiment latent topic model(MSTM), affective topic model(ATM)

α设置为0.01,β设置为0.001,γ设置为0.001,

评估度量:Acc@1 :排名第一的预测结果的准确性

and AP:为所有document的平均Pearson相关系数。

6.Results


1.word- level model假设单词之间相互独立的,忽略上下文.

基于神经网络的方法比word-level model的效果更好,但是比生成模型的效果差。

SOMN使用了embedding来构造document的网络,在一定程度上考虑了词汇之间的语义关联。比生成模型的结果要稍微好一些。但是它并没有直接对主题/情感transition进行建模。

2.topic model with latent topics encoding document-level global context 获得更好的结果,但是他们都没有考虑相邻句子之间的联系,只有ASUM考虑了句子的结构。

3.TET model 对topic/emotion transition进行encode放入生成模型中,所以能够实现最好的效果。

1.extracted topics

除了social emotion classification,TET还能提取topics,为了评估模型所捕获的主题和情绪的有效性,使用公式6 提取的主题和情感组合的 前10个词 如图6所示。可以看出,大多数话题都与社会新闻中的一些事件相对应。

2.Sentence-level Emotion Classification

ND16是以读者视角来标注的新闻文章,RenCECps 是带有作者观点的博客。


JST的sentence-level 分类结果:通过累加句子中单词的emotion获得,因为JST不直接将情感标签分配给句子。

ASUM的结果是最差的,因为ASUM 是对每个句子添加情感标签,但是JST使对每个单词 添加情感标签,而TET则考虑后验概率。

RenCECps的结果要比ND16的结果差,因为RenCECps用语句级的稀疏情绪评分和句子层次的情感分类进行标注,比文档级的情感分类更加困难。

7.conclusion

1.文本提出了隐topic-emotion transition模型,该模型通过对连续句子的情绪和主题的transition建模,将其作为马尔可夫链。在TET中,我们使用句子的语言特征来指导主题的transition。从情感词汇中计算出的情感关联,利用数据自动构建词典来指导情感transition。在参数估计中采用了自定义的前向后向算法。实验表明,我们的模型在文档级和句子级情感检测方面都优于最先进的方法。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容