事件间因果关系方向数据调研

1. 摘要

本文介绍事件间因果关系方向数据,此类任务通过关注两个实体间的语义关系,可以得到包含语义关系的实体关系三元组。事件间因果关系语料通常作为因果事件抽取、因果推断等任务的基础,允许使用规则、机器学习、深度学习等方法对事件链进行分析。

2. 事件间因果关系方向数据集

2007* SemEval-2007 Task 04: Classification of Semantic Relations between Nominals[1]此任务是对除命名实体以外的简单名词之间的语义关系进行分类,该数据集中共包含因果关系在内的七种词间关系,其中每种关系包含210条数据。例如:laugh(大笑)与wrinkles(皱纹)即存在因果关系。

2008* The Penn Discourse Treebank 2.0(PDTB-2.0)[2] PDTB是语言资源联盟(LDC)于2008年发布的,由美国宾西法尼亚大学、意大利托里诺大学和英国爱丁堡大学联合标注。其对华尔街日报的2159篇文章借鉴篇章词汇化树型连接语法(D-LTAG)理论和RST思想,标注了40600个显式、隐式、替代词汇化(AltLex)、 基于实体一致性关系(EntRel)和没有关系(NoRel)这5大类型的篇章关系。同时PDTB对篇章关系定义了一个3级层次的sense结构用于语义关系分类:其中,第1层包括4种最常见的语义:Temporal, Contingency, Comparison和Expansion。第2层包括16类语义,第3层包括23类语义。其中,因果被记为contingency relationship的子类。例如:In addition, its machines are typically easier to operate, so customers require less assistance from software. (CONTINGENCY: Cause: result)

图1 PDTB中的事件关系分类

2008* Building a Corpus of Temporal-Causal Structure[3]该工作来自科罗拉多大学博尔德分校,注重于刻画事件间的因果关系与时序关系。作者标注了1000对由[and]连接的事件。例如:Fuel tanks had [EVENT leaked] and [EVENT contaminated] the soil.

2010* SemEval-2010 task 8[4]相似于SemEval-2007 Task 04,该任务集中于名词对之间的语义关系,共包含九类语义关系共10717例数据。例如:这些癌症是由辐射照射引起的。各部分关系分布比例如下图。

图2 [SemEval-2010 task 8]事件关系类型分布

2014* Causal-TimeBank[5]实现了一种基于规则的算法来自动识别TempEval-3语料库中的显式因果关系。该工作对因果关系中涉及的事件的注释包括极性(polarity)属性;此外还定义了事实性(factuality)和确定性(certainty)事件属性,这些属性有助于推断事件之间实际因果关系的信息。较为遗憾的是此数据集较小,仅包含300条左右。例如:DrinkingS may cause memory lossT,其中maybe表示不确定性。

2016* AltLex[6]利用PDTB和Wikipedia语料,使用distant supervision demonstrates方法,提出了一种自动构建因果标注集的方法。其中共有4595句具有因果关系,39645句没有因果关系。但其适用范围狭窄:没有标注因果实体,例如:I was late ****because of**** traffic

2016* CaTeRS[7]该工作介绍了一种新的语义注释框架,称为Causal and Temporal Relation Scheme。通过在来自ROC Story语料库的320个五句短篇小说中注释总共1600个句子,共捕捉了2708个事件实体和2715个语义关系,包括13种不同类型的因果关系和时间关系。例如:Harry [fell]e1 and [skinned]e2 his knee

2011* CEC (Chinese event causality)[8]是目前唯一公开的中文因果关系数据集。该工作共有200篇文章和340套因果关系。其具有广泛的因果关系,包括多重、明确、句子间、跨句、跨段因果关系、嵌入因果关系和交叉因果关系。下图为文章中一个包含因果关系的时间序列的例子。


图3 CEC时序事件实例

2014* Richer Event Descriptions[9] 此工作介绍了Richer事件描述语料库的注释方法,在THYME病例语料上进行丰富标注,对该语料库的实体、事件、时间、它们的共指关系和部分共指关系以及事件之间的时间、因果和子事件关系进行了注释。

2017* BECauSE Corpus 2.0[10]此工作基于BECauSE1.0,它将因果理解为“呈现一个事件、状态、动作或实体以促进或阻碍另一个事件、状态、动作或实体的任何结构,并至少包括一个词汇触发器”。共包含2386条样本,形式例如:We are in serious economic trouble ****because of**** INADEQUATE REGULATION.(因果结构为粗体、原因为大写、结果为斜体)。

2017* ESC[11]此工作提出了的ESCv0.9,是StoryLine Extraction task的第一个基准。同时提出了3个baseline系统来完成任务。这项任务的目标和以往的时序、因果关系抽取不同。相比时序任务,StoryLine Extraction task只考虑和同一故事相关的事件。相比于因果任务,StoryLine Extraction task比因果更加宽泛,包含了因果关系。该任务对叙事模型的建立很有帮助,叙事模型允许我们对新闻中的常见叙事结果进行学习。同时该任务提出的共指事件关系也为多文档摘要系统提供帮助。事件间关系被标注为rising action(间接导致、导致或导致另一事件的事件)和falling action(推测和后果)中的一种,例如:


2019* SCIFI[12]通过修订和扩展SemEval 2010 task 8提出的因果数据集。针对SemEval的缺陷和不足,SCIFI将一因一果扩展到多重因果关系、词与短语等。 数据集以xml标记的形式呈现因果关系,并在数据集中给出因果实体对。有1270句具有因果关系,3966句没有因果关系。例如:

3. 因果关系抽取

3.1 基于模式匹配的因果关系抽取

早期研究根据因果句的结构特征,提取具有固定模式和标记的显性因果关系,包括Garcia[13]、Khoo[14]、Girju[15]。

图4 部分用于匹配的模板
3.2 基于关系分类的因果关系抽取

此类方法通过判断句子中的实体对是否具有指定的关系,从而转化为一个二分类问题。 基于关系分类的因果关系抽取是确定文本中给出的因果对是否具有因果关系,适用于提取因果实体的句子。此类方法代表有Zhao[16]提出Restricted Hidden Native Bayes Model的提取因果关系;Feng[17]将带注意力机制的双向门控循环单元神经网络(Bidirectional gated recurrent units networks,BGRU)与对抗学习相融合,进而从因果关系解释信息中获得高区分度的特征等。

3.3 基于序列标注的因果关系抽取

基于序列标注的因果关系抽取则将因果抽取问题转化为序列标签,即为句子中的每个单词标记因果标签,从而提取因果实体,确定因果关系的方向。此类方法代表有CRF[8]、L-BiLSTM[18]等。

图5 用于因果关系抽取的双向LSTM体系结构

4. 总结

事件间因果关系仍是一个崭新的研究领域,缺乏足够权威的数据集以及标注方法。本文梳理了部分因果关系方向数据集,以及部分因果关系抽取方法,为以后的工作提供了思路。

5. 参考文献

[1] Girju R, Nakov P, Nastase V, et al. Semeval-2007 task 04: Classification of semantic relations between nominals[C]//Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007: 13-18.

[2] Prasad R, Dinesh N, Lee A, et al. The Penn Discourse TreeBank 2.0[C]//LREC. 2008.

[3] Bethard S , Corvey W , Klingenstein S , et al. Building a corpus of temporal-causal structure[C]// Proceedings of the International Conference on Language Resources and Evaluation, LREC 2008, 26 May - 1 June 2008, Marrakech, Morocco. DBLP, 2008.

[4] Hendrickx I, Kim S N, Kozareva Z, et al. Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals[C]//Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions. Association for Computational Linguistics, 2009: 94-99.

[5] Mirza P, Sprugnoli R, Tonelli S, et al. Annotating causality in the TempEval-3 corpus[C]//EACL 2014 Workshop on Computational Approaches to Causality in Language (CAtoCL). Association for Computational Linguistics, 2014: 10-19.

[6] Hidey C, McKeown K. Identifying causal relations using parallel Wikipedia articles[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016: 1424-1433.ACL 2016

[7] Mostafazadeh N, Grealish A, Chambers N, et al. CaTeRS: Causal and temporal relation scheme for semantic annotation of event structures[C]//Proceedings of the Fourth Workshop on Events. 2016: 51-61.

[8] Jian-Feng F U, Zong-Tian L I U, Wei L, et al (2011) Event causal relation extraction based on cascaded conditional random fields. Pattern Recognition and Artificial Intelligence, 2011, 24(4): 567-573

[9] O’Gorman T, Wright-Bettner K, Palmer M. Richer Event Description: Integrating event coreference with temporal, causal and bridging annotation[C]//Proceedings of the 2nd Workshop on Computing News Storylines (CNS 2016). 2016: 47-56.CNS 2016

[10] Dunietz J , Levin L , Carbonell J . The BECauSE Corpus 2.0: Annotating Causality and Overlapping Relations[C]// Proceedings of the 11th Linguistic Annotation Workshop. 2017.

[11] Caselli T , Vossen P . The Event StoryLine Corpus: A New Benchmark for Causal and Temporal Relation Extraction[C]// Proceedings of the Events and Stories in the News Workshop. 2017.

[12] Li Z, Li Q, Zou X et al (2019) Causality Extraction based on Self-Attentive BiLSTMCRF with Transferred Embeddings, arXiv preprint arXiv:1904.07629

[13] Garcia D (1997) COATIS, an NLP system to locate expressions of actions connected by causality links. In Proc of the 10th European Workshop on Knowledge Acquisition, Modeling and Management, LNCS 347-352

[14] Khoo C S G, Kornfilt J, Oddy R N et al (1998) Automatic extraction of cause-effect information from newspaper text without knowledge-based inferencing. Literary and Linguistic Computing, 13(4): 177-186

[15] Girju R (2003) Automatic Detection of Causal Relations for Question Answering. In: Proceedings of the 41st ACL Workshop on Multilingual Summarization and Question Answering, ACL, pp76-83 ACL2003

[16] Zhao S, Liu T, Zhao S et al (2016) Event causality extraction based on connectives analysis. Neurocomputing, 173(P3):1943-1950

[17] Feng C, Kang L, Se Ge et al(2018) Causality Extraction With GAN. Acta Auto-matica Sinica, 44(5): 811-818

[18] Dasgupta T,Saha R,Dey L et al (2018) Automatic Extraction of Causal Relations from Text using Linguistically Informed Deep Neural Networks. In: Proc of the 19th Annual SIGdial Meeting on Discourse and Dialoguem, ACL, pp306-316 ACL2018

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容