篇章级事件抽取:Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

1.简述

研究金融领域的EE(DEE)。核心思想:将event table转换为EDAG(entity-based directed acyclic graph),这种形式可以将复杂的table-filling task转换为一系列线性的path-expanding task。同时,将trigger标注移除,经过前面的研究,没有触发词也可以得到很好的结果。该paper中使用的数据集比DCFEE的大10倍,并且有将近30%的文档含有多个事件record。

该paper的贡献主要有:

提出了一个新的解决方案Doc2EDAG,它可以直接从一篇给定的文档生成事件table。

重新formalize了一个没有trigger的DEE task来减轻基于Distant Supervision的事件抽取的标注难度

创建了一个large-scale real-word dateset for DEE

2.相关概念

entity mention:a text span that refers to an entity object

event role:an event role corresponds to a predefined field of the event table

event argument:an event argument is an entity that plays a specific event role

event record:an event record corresponds to an entry of the event table and contains several arguments with required roles


3.篇章级标注

采用远程监督将event knowledge base映射到document text来获取标注数据。为了保证标注的质量,为matched records设置了两个限制 1)关键的event roles必须存在,非关键的可以为空 2)matched arguments的数目应该大于一个阈值。这些限制是event-type-specific的。注意我们不标注trigger words。

重新确定了DEE的任务为基于文档填event tables。这涉及以下任务 1)event detection 2)entity extraction 3)event table filling

4.模型

输入表示.从token embeddig table\boldsymbol{V} \in \mathbb{R}^{d_{w} \times|V|}中找出每个词的embedding,然后每个文档表示为\left[\boldsymbol{s}_{\mathbf{1}} ; \boldsymbol{s}_{\mathbf{2}} ; \cdots ; \boldsymbol{s}_{\boldsymbol{N}_{\boldsymbol{s}}}\right],其中每个句子\boldsymbol{s}_{\boldsymbol{i}} \in \mathbb{R}^{d_{\boldsymbol{w}} \times N_{\boldsymbol{w}}}由a sequence of token embeddings组成\left[\boldsymbol{w}_{\boldsymbol{i}, \mathbf{1}} ; \boldsymbol{w}_{\boldsymbol{i}, \mathbf{2}} ; \cdots ; \boldsymbol{w}_{\boldsymbol{i}, \boldsymbol{N}_{\boldsymbol{w}}}\right],其中Ns与Nw为文档和句子中的最大句子数目和词数目。\boldsymbol{w}_{i, j} \in \mathbb{R}^{d_w}是第i个句子中第j个token的embedding

实体识别:实体识别采用了Bi-LSTM-CRF的架构,不同的是采用了Transformer替代LSTM,因为Transformer捕捉context的能力更强。将这个模型记为Transformer-1.经过模型后,得到了h_i = Transformer-1(s_i),其中hi的维度与si一样,在训练过程中,使用BIO标记每个argument,然后用一个CRF层来wraph_i来得到实体识别lossLer,在解码时使用维特比算法得到标注的句子。


4.1篇章级实体编码

实体与句子embedding:一个entity mention一般包括多个token,利用AWA module来获取整体的embedding,对句子同理,最后得到e_{i} ,c_{i} \in \mathbb{R}^{d_{w}}分别表示mention与句子的embedding。

篇章级编码:为了获取到篇章级的context,使用了第二个Transformer结构来促进mention与sentences之间的信息交换。首先对上一步的结果与sentence  position embedding相加来融入句子的position information。对于那些名字一样的实体提及,用AWA module获取其平均向量,formally,经过这个Transformer,我们得到了e^{d}=\left[e_{1}^{d} ; \cdots ; e_{N_{e}}^{d}\right]c^{d}=\left[c_{1}^{d} ; \cdots ; c_{N_{s}}^{c}\right],这两个Tensor会被用于下一步的EDAG生成。


AWA module:利用attention机制对sequence的向量进行的加权平均,特别的,对于\boldsymbol{x}=\left[\boldsymbol{x}_{1} ; \boldsymbol{x}_{2} ; \cdots ; \boldsymbol{x}_{N_{x}}\right],利用dot-product attention


AWA计算公式

其中Q是可训练的。


4.2EDAG生成

得到了上面的表示之后,首先对句子tensor c^d经过另一个AWA模型编码,然后对每个event type进行event triggering分类,对每个trigger event计算EDAG.

EDAG:对每个event type,首先为其role定义一个顺序,然后将每个event record转换为一个argument node的list,顺序与这个顺序一样,每个node可以是entity或者NA,然后将由公共前缀的路径合并,最后每条完整的路径对应event table的一行。

Memory:线性的生成EDAG,于是考虑当前路径中已经出现的实体与上下文很重要,因此使用一个记忆张量m,初始化为c^d,然后每次扩展EDAG时更新记忆张量m,扩展时根据当前role的判断,或者加入相关entity embedding或者加入NA。

路径扩展:对于路径p的一个event role r,用一个二元分类器决定该实体是否扩展,该二元分类器的核心是一个新的Transformer,Transformer-3,首先将m和实体e_d连接,然后与一个可训练的 event-role-indicator embedding相加,得到的结果作为Transformer的输入。经过这一步就得到了enriched entity.然后基于e^d决定是否执行路径扩展操作。

优化目标:首先是event trigger分类的loss L_{tr},然后是path-expanding分类的lossL_{dag},plus前面的entity分类loss,最终得到的损失函数为L_{a l l}=\lambda_{1} L_{e r}+\lambda_{2} L_{t r}+\lambda_{3} L_{dag},其中λ是超参数,在计算dag时,为错误的分类加上γ权重来加重惩罚,在训练时,使用scheduled sampling方法来自适应性的从ground-truth和识别出的结果之间切换。

Inference:在inference阶段,首先识别entity,然后生成EDAG。

5.实验

数据收集:使用了10年的ChFinAnn文档与人工总结的事件知识库来进行DS-based event labeling,主要研究Equity Freeze (EF), Equity Repurchase (ER),Equity Underweight (EU), Equity Overweight (EO) and Equity Pledge (EP),为了避免切分的错误传递,直接采用汉字级别的tokenizer.一共获取了32040篇文档,将数据集按照事件顺序分为8:1:1,训练:提升:测试。

结果:

对比DFCEE的实验结果


消融实验,DocEnc是移除document-level entity表示的Transformer,PathMem是引入的记忆机制
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容