论文阅读:Automatically Labeled Data Generation for Large Scale Event Extraction

简介

这篇文章关注对event extraction提供标注数据的方法。传统的hand-labeled的训练数据非常昂贵,并且event覆盖的非常有限。这使得一些supervised的方法很难去抽取大规模的event来进行KBP(knowledge base population)。

我们知道,关系抽取中可以用远程监督的方法来自动标注数据,一种想法就是可以不可以把这种方法扩展到event extraction。然而这样会有两个问题:

  • 第一个问题
    事件抽取的目标是检测事件实例的类型并抽取其argument及role,即(event \, instance, event \, type; role_1, argument_1; role_2, argument_2; ...; role_n, argument_n)在Freebase等knowledge base中,事件的表示如图所示:
    example-of-ee.png

    矩形表示事件实例的arguments,连接arguments和事件实例的每条边都表示arguments的role,这样看好像是可以使用远程监督自动标注数据,但是在通常的事件抽取中,一个事件实例通常是使用trigger word来表示的,但在现有的knowledge base 中并不存在事件的triggers。为了解决这个问题,所以需要在使用远程监督前找到事件的trigger word。
  • 第二个问题
    一个句子实际上并不能够包含某一事件的所有参数,简单地使用知识库中的所有参数在句子中进行标记,将只有很少的句子满足条件,因此作者选择了几个具有代表性的参数来代表事件。

方法

作者提出了一个利用world knowledge(Freebase)和linguistic knowledge(FrameNet)来自动标注event extraction所需要的数据的方法。这个方法能够探测到每一个event type的key argument和trigger word,然后用它们来从文本中标注event。


method.png

方法主要分为4步:

  1. Key Argument Detection
    使用Key Rate(KR) 来衡量某一事件类型中各个参数的重要性,然后在Freebase中计算每个事件类型中所有argument的KR,然后选择前K大个作为key argument。
    计算KR公式如下:
    K R_{i j}=R S_{i j} * E R_{i}
    其中,RS为角色显著性(Role Saliency)。区分同一类型中一个事件实例和另一个事件实例。
    R S_{i j}=\frac{\operatorname{Count}\left(A_{i}, E T_{j}\right)}{\operatorname{Count}\left(E T_{j}\right)}
    分子:eventType_j所有实例中出现Argument_i的数量,
    分母:eventType_j实例的总数。
    某一参数在某一特定类型中出现越多,说明RS越大,越能代表这个类型的特点。
    ER为事件相关性(Event Relevance)。区分不同事件类型。
    E R_{i}=\log \frac{\operatorname{Sum}(E T)}{1+\operatorname{Count}(E T C i)}
    分子:所有事件类型总数,
    分母:出现过Argument_i的事件类型的数量。
    如果一个参数在所有事件类型中都出现,那么则这个参数区分性不高,具有较低的ER。

  2. Trigger Word Detection
    包含所有key argument的句子更有可能表示Freebase中对应的事件实例,首先使用key arguments在Wikipeida中筛选标注句子,然后使用这些句子来进行触发词检测。
    这里有一个假设:出现在这些句子中动词往往倾向于触发这类事件。
    动词在同一种类型的事件中出现很多次,说明有可能为此事件的触发词,而如果动词在不同类型中均出现,则为触发词的概率很小。作者使用Trigger Rate (TR)来衡量动词是trigger word的概率,最后选择具有较高TR的动词作为对应事件类型的trigger word。
    计算TR公式如下:
    T R_{i j}=T C F_{i j} * T E T F_{i}
    其中,Trigger Candidate Frequency (TCF)动词在同一类型事件中出现的频率。
    T C F_{i j}=\frac{\operatorname{Count}\left(V_{i}, E T S_{j}\right)}{\operatorname{Count}\left(E T S_{j}\right)}
    分子:j类型中包含动词i的句子数量,
    分母:j类型中的句子数量。
    Trigger Event Type Frequency (TETF)衡量了动词在不同事件类型中的出现频率。
    T E T F_{i}=\log \frac{\operatorname{Sum}(E T)}{1+\operatorname{Count}\left(E T I_{i}\right)}
    分子:所有事件类型总数,
    分母:句子中出现过动词i的事件类型数量。

  3. Trigger Word Filtering and Expansion
    上面得到的初始触发词中只有动词,然而像marriage这种名词也是可以作为触发词的,又因为句子中名词数量远多于动词,所以使用像动词一样的TR方法不现实。故采用FrameNet来过滤和扩展trigger words。使用词嵌入技术,来衡量词的相似性,将Freebase的事件映射到FrameNet的frame,然后过滤掉在FrameNet中没有对应映射的动词,在动词映射到的frame中使用具有高度置信度的名词来扩展触发词。

  4. Automatically labeled data generation
    包含某一事件类型所有key argument和任何trigger word的句子在某种意义上可表示一个事件,这里使用Soft Distant Supervision的方法在Wikipedia中重新筛选和标注句子。从而得到了自动标注的数据。

实验

人工对自动标注的数据进行检查,标注正确就标个y,反之标n。三个人进行检查,最终结果投票决定,结果显示自动标注的数据质量很高。
将自动标注的数据与ACE数据结合,进行检查,实验结果显示大规模自动标注的数据与精心设计的人工标注的数据效果相当。所提出的自动标注的数据能够与人工标注的数据结合用来提高利用这些数据训练的模型的性能。
另外,为了缓解自动标注过程中远程监督带来的误标注问题,文中提到了一种多实例学习(Multi-instance Learning)的方法,将多个句子看作一个包,也带来了事件抽取效果上的提升。

Reference

Automatically Labeled Data Generation for Large Scale Event Extraction

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,519评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,842评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,544评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,742评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,646评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,027评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,513评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,169评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,324评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,268评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,299评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,996评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,591评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,667评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,911评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,288评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,871评论 2 341