1.简述
研究金融领域的EE(DEE)。核心思想:将event table转换为EDAG(entity-based directed acyclic graph),这种形式可以将复杂的table-filling task转换为一系列线性的path-expanding task。同时,将trigger标注移除,经过前面的研究,没有触发词也可以得到很好的结果。该paper中使用的数据集比DCFEE的大10倍,并且有将近30%的文档含有多个事件record。
该paper的贡献主要有:
提出了一个新的解决方案Doc2EDAG,它可以直接从一篇给定的文档生成事件table。
重新formalize了一个没有trigger的DEE task来减轻基于Distant Supervision的事件抽取的标注难度
创建了一个large-scale real-word dateset for DEE
2.相关概念
entity mention:a text span that refers to an entity object
event role:an event role corresponds to a predefined field of the event table
event argument:an event argument is an entity that plays a specific event role
event record:an event record corresponds to an entry of the event table and contains several arguments with required roles
3.篇章级标注
采用远程监督将event knowledge base映射到document text来获取标注数据。为了保证标注的质量,为matched records设置了两个限制 1)关键的event roles必须存在,非关键的可以为空 2)matched arguments的数目应该大于一个阈值。这些限制是event-type-specific的。注意我们不标注trigger words。
重新确定了DEE的任务为基于文档填event tables。这涉及以下任务 1)event detection 2)entity extraction 3)event table filling
4.模型
输入表示.从token embeddig table中找出每个词的embedding,然后每个文档表示为,其中每个句子由a sequence of token embeddings组成,其中Ns与Nw为文档和句子中的最大句子数目和词数目。是第i个句子中第j个token的embedding
实体识别:实体识别采用了Bi-LSTM-CRF的架构,不同的是采用了Transformer替代LSTM,因为Transformer捕捉context的能力更强。将这个模型记为Transformer-1.经过模型后,得到了,其中hi的维度与si一样,在训练过程中,使用BIO标记每个argument,然后用一个CRF层来wrap来得到实体识别loss,在解码时使用维特比算法得到标注的句子。
4.1篇章级实体编码
实体与句子embedding:一个entity mention一般包括多个token,利用AWA module来获取整体的embedding,对句子同理,最后得到分别表示mention与句子的embedding。
篇章级编码:为了获取到篇章级的context,使用了第二个Transformer结构来促进mention与sentences之间的信息交换。首先对上一步的结果与sentence position embedding相加来融入句子的position information。对于那些名字一样的实体提及,用AWA module获取其平均向量,formally,经过这个Transformer,我们得到了与,这两个Tensor会被用于下一步的EDAG生成。
AWA module:利用attention机制对sequence的向量进行的加权平均,特别的,对于,利用dot-product attention
其中Q是可训练的。
4.2EDAG生成
得到了上面的表示之后,首先对句子tensor 经过另一个AWA模型编码,然后对每个event type进行event triggering分类,对每个trigger event计算EDAG.
EDAG:对每个event type,首先为其role定义一个顺序,然后将每个event record转换为一个argument node的list,顺序与这个顺序一样,每个node可以是entity或者NA,然后将由公共前缀的路径合并,最后每条完整的路径对应event table的一行。
Memory:线性的生成EDAG,于是考虑当前路径中已经出现的实体与上下文很重要,因此使用一个记忆张量m,初始化为,然后每次扩展EDAG时更新记忆张量m,扩展时根据当前role的判断,或者加入相关entity embedding或者加入NA。
路径扩展:对于路径p的一个event role r,用一个二元分类器决定该实体是否扩展,该二元分类器的核心是一个新的Transformer,Transformer-3,首先将m和实体连接,然后与一个可训练的 event-role-indicator embedding相加,得到的结果作为Transformer的输入。经过这一步就得到了enriched entity.然后基于决定是否执行路径扩展操作。
优化目标:首先是event trigger分类的loss ,然后是path-expanding分类的loss,plus前面的entity分类loss,最终得到的损失函数为,其中λ是超参数,在计算dag时,为错误的分类加上γ权重来加重惩罚,在训练时,使用scheduled sampling方法来自适应性的从ground-truth和识别出的结果之间切换。
Inference:在inference阶段,首先识别entity,然后生成EDAG。
5.实验
数据收集:使用了10年的ChFinAnn文档与人工总结的事件知识库来进行DS-based event labeling,主要研究Equity Freeze (EF), Equity Repurchase (ER),Equity Underweight (EU), Equity Overweight (EO) and Equity Pledge (EP),为了避免切分的错误传递,直接采用汉字级别的tokenizer.一共获取了32040篇文档,将数据集按照事件顺序分为8:1:1,训练:提升:测试。
结果: