Teaching Machines to Read and Comprehend
1. 模型提出原因:
因为可被用来训练的训练数据较少,因此,有监督的自然语言阅读理解很难进行。此文中提出方法可创建有监督的阅读理解数据集。通过简单的entity detection和anonymisation algorithms,summary和paraphrase sentences与它们相关的文章一起被转换成context-query-answer的形式。
2. 训练集的构建
此文章要做的是提供一个语料库,用于评估模型阅读理解单个文档的能力,而不是world knowledge或者co-occurrence。例如以下完形填空:a) The hi-tech bra that helps you beat breast X; b) Could Saccharin help beat X ?; c) Can fish oils help fight prostate X ? ngram模型不用考虑文章背景很容易得出X=cancer,因为这在语库中是很频繁的cured entity。
为了防止此问题的发生,我们创建了以下步骤: a) use a coreference system to establish coreferents in each data point; b) replace all entities with abstract entity markers according to coreference; c) randomly permute these entity markers whenever a data point is loaded.
3. 模型
介绍三种模型,模型架构如下图:
3.1 DeepLSTM
将文档一次一个字地提供给DeepLSTM编码器,在分隔符之后我们还将问题提供给编码器。也可以先处理问题然后处理文档。 该模型将每个文档问题对处理为单个长序列。 给定嵌入式文档和查询,网络预测文档中的哪个词回答问题。模型具体如下图: