内容来自哈工大车万翔老师团队的作品《自然语言处理:基于预训练模型的方法》。
1. 信息抽取
信息抽取(Information Extraction,IE)是从非结构化的文本中自动提取结构化信息的过程。其结果还可以作为知识加入知识库。
1.1 命名实体识别(Named Entity Recognition,NER)
在文本中抽取每个提及的命名实体并标注其类型。包括人名、地名和机构名等,也包括专有名称等。
实体链接(Entity Linking):在文本中找到提及的命名实体后,将这些命名实体链接到知识库或知识图谱中的具体实体。
1.2 关系抽取(Relation Extraction)
用于识别和分类文本中提及的实体之间的语义关系,如夫妻、子女、工作单位和地理空间上的位置关系等二元关系。
1.3 事件抽取(Event Extraction)
从文本中识别人们感兴趣的事件以及事件所涉及的时间、地点和人物等关键元素。
事件的发生时间往往比较关键,时间表达式(Temporal Expression)识别也是重要的信息抽取子任务,一般包括两种类型的时间:绝对时间(日期、星期、月份和节假日等)和相对时间(如明天、两年前等)