简介
BERT是经过预先训练的Transformer模型,已在多个NLP任务上取得了突破性的性能。最近,我遇到了BERTSUM,这是爱丁堡的Liu的论文。本文扩展了BERT模型,以在文本摘要上达到最新的分数。在此博客中,我将解释本文以及如何使用此模型进行工作。
单文档文本摘要是自动生成文档的较短版本,同时保留其最重要信息的任务。该任务在自然语言处理社区中受到了很多关注。由于它对于各种信息访问应用程序具有巨大的潜力。示例包括提取文本内容(例如,新闻,社交媒体,评论),回答问题或提供建议的工具。汇总模型可以有两种类型:
提取摘要-类似于使用荧光笔。我们从原始文本中选择文本的子段,以创建一个很好的摘要
抽象性摘要-类似于用笔书写。创建摘要以提取要点,并且可以使用原始文本中未包含的词。这对于机器来说更难
文本摘要系统的性能通过其ROUGE得分来衡量。 ROUGE得分用于衡量预测的摘要与基本事实摘要之间的重叠。
BERT的主要技术创新是将流行的注意力模型Transformer的双向培训应用于语言建模。它的成功表明,经过双向训练的语言模型比单向语言模型可以更深刻地理解语言环境和流程。这是学习BERT的绝佳链接。
BERT也可用于下一句预测。该模型接收成对的句子作为输入,并学习预测成对的第二句话是否是原始文档中的后续句子。在训练期间,输入的50%是一对,其中第二句话是原始文档中的后续句子。而在其他50%中,从语料库中随机选择一个句子作为第二个句子。
使用BERT提取文本摘要— BERTSUM Model
修改了BERT模型,以生成多个句子的句子嵌入。这是通过在每个句子的开头之前插入[CLS]令牌来完成的。然后,输出是每个句子的句子向量。然后,将句子向量传递到多层,从而轻松捕获文档级功能。将最终的汇总预测与基本事实进行比较,并将损失用于训练汇总层和BERT模型。
BERTSUM模型架构
该模型在CNN /每日邮件和NYT注释的语料库上进行了训练。由于来自两个语料库的基本事实是抽象摘要,因此创建了新的基本事实。贪心算法用于为每个文档生成预言摘要。该算法贪婪地选择可以使ROUGE得分最大化的句子作为预言句。我们将标签1分配给oracle摘要中选择的句子,否则分配0。
本文显示了文本摘要非常精确的结果,优于最新的抽象和提取摘要模型。见下表。这里的第一行是指针生成器模型,在我的博客中有更详细的解释。