论文信息
论文题目:Instructed Language Models with Retrievers Are Powerful Entity Linkers
论文原文:arxiv.org/pdf/2311.03250.pdf
摘要
LLM的生成能力已经被证明了能够解决复杂推理的任务中。然而,LLM存在幻觉现象,因此不适合以实体为中心的任务,如实体链接(EL),比如需要在一个大型知识库上进行精确的实体预测这样的任务。为此,我们提出了Instructed Language Models with Retrievers Are Powerful Entity Linkers(INSGENEL),这是一种可以使casual language models依托知识库来执行实体链接的模型。使休闲语言模型能够通过知识库执行实体链接。本文提出的模型主要有以下改进点。第一,借助指令微调对模型进行SeqSeq训练,使其适应EL目标。第二,一种新的生成式EL框架,基于一个轻量级的潜在提及检索器,将模型从重的和非并行的解码中解放出来,实现4×推理加速。此外,我们发现 EL任务仍然是LLM的一个性能瓶颈。
介绍
- 实体链接(EL)是 NLP 和IR领域的一个基本的研究问题,它作为一个基本任务在各种NLP任务中出现。以前的EL方法通常分为两个步骤:提及检测(MD)和实体消歧(ED)。一旦进入MD模型生成实体提及,那么ED模块将实体提及上下文和候选实体编码为表示。然后使用一个简单的最大内积搜索(MIPS)来捕获提及-实体的对应关系,从而产生对整个知识库(KB)的最终实体预测。EL研究最近的一个趋势是建立一个端到端管道,将MD和ED连接起来,并将它们制定成不同的任务,如问答、多任务学习和语言生成。
- 虽然生成式大型语言模型(LLMs)在许多NLP任务中显示出优秀的能力,但在以实体为中心的NLP任务领域,尤其是EL。不同于许多可以很容易地统一到Text2Text框架的知识语言基础任务,EL任务的困难在于由于LLM的臭名昭著的幻觉问题,无约束的生成经常无法产生精确的实体标识符。在这项工作中,我们通过提出三种变体来重新审视生成性EL:INSGENEL,INSGENEL-R, INSGENEL-ICL。
- INSGENEL通过利用一种约束下一个可能的token的方法来解决EL的问题,并在生成过程中消除了无效的选项,从而确保生成的文本可以成功地解析为EL结果。我们通过指令微调方法优化CLM。实验结论证明了指令微调可以在预先训练好的语言模型中解锁特定的实体相关知识。此外,该方法在训练计算效率和数据效率方面都有显著提高,表明基础语言模型可以有效降低针对特定任务目标的学习难度。
- 然而,在推理过程中,直接生成序列会产生显著的计算开销,因为内存占用和计算都随着序列长度的增加而增加,更不用说自回归解码的非并行性了。为了解决这些挑战,我们将提及检测(MD)的责任转移给外部检索器。对于每个文档,外部检索器会选择可能存在于文档中的前k个实体,并构造一个可能的提及集。然后,匹配过程动态地确定了在生成过程中需要进行决策的范围。最后,只有在需要选择时才使用贪婪解码。
- 这种新颖的EL生成框架名为INSGENEL-R,具有几个关键优势: a)与约束波束搜索相比,它以简单的向量检索为代价,显著减少了大量正向生成的数量。b)它不会出现生成不可能的提及的问题,从而减少了推理计算。c)它不太可能遗漏明显的提及,而传统的生成式EL在生成提及边界时容易出错。此外,我们以上下文学习(ICL)的方式扩展了同一只LM的使用,比较结果表明,虽然通用的LLM可以通过上下文学习正确地坚持样本的格式,但它们无法匹配INSGENEL-R所表现出的相同的准确性。
方法
原始任务建模
- 原始的EL生成式模型将实体链接作为自回归序列生成任务,也就是说,给定文档,生成的序列应该表示提到和它们相关的KB实体。训练设置通常遵循一个标准的SeqSeq的任务形式。
指令微调的INSGENEL的基线
-
我们的基线集中于指令调优一个decoder-only的CLM模型。提示部分包括一个可选的自然语言任务指令和要链接的文档。目标序列包括以其纯文本形式存在的链接文档,且带有特殊的边界符号,表示提及和相应的实体标签。我们使用交叉熵损失,Loss定义为CLM的下一个token预测的损失:
检索增强的生成EL:INSGENEL-R
- 给定一个文档块x∈X,我们希望构建一个双编码器,检索前k候选实体{e1,e2,e3,…,ek}这可能在x中提到。检索器计算文档表示Xp和实体表示Ee,如下:
其中,BERTP和BERTE是两个不共享权重的BERT文本编码器,[CLS]和[SEP]是BERT特殊令牌。ϕtitle(e)和ϕdesc(e)分别是一个实体e的文本标识符和文本描述.
-
在模型训练中,我们准备了一个文档块x和一组在x中提到的ϗ实体E (x)∈E。我们训练模型要最大化以下目标:
在推理过程中,实体表示Ee被缓存到Faiss索引中,以允许快速的顶部k检索。对于检索到的实体,我们通过查找一个entity2mention字典来构造一组可能的提及。图1的右上角说明了一组可能提到的示例。几个不同的实体可以对应于同一个提及字符串。
然后,我们在一个可能的提及集和文档文本之间运行字符串匹配。文档文本中任何匹配可能提到的部分都被标记为决策要求。每个决策所需的跨度包括开始和结束索引,以及可能在跨度内的提及。
在引导实体链接生成阶段,生成代理将根据其当前状态确定下一个操作:
- 基于决策需要的跨度:与3.1中的一般的生成EL模型不同,INSGENEL-R只需要在超出决策需要的跨度时直接复制下一个令牌。
- 在决策要求的跨度的开始时: INSGENEL-R必须决定在决策要求的跨度内何时开始提及。这是通过比较下一个文档标记和提到开始边界标记的日志概率来实现的。
- 在决策需要考虑的跨度的提到部分:一旦开始提到,如果这个跨度只有一个可能的提到,agent将直接复制这个提到(如图中天蓝色字体的“Steve”的情况)。如果没有,就会决定在这个范围内选择哪个,也就是受到动态生成的前缀树的约束,该树覆盖了跨度中的所有提到选择。
- 在决策要求跨度的实体部分中:一旦一个跨度完成了对提及的解码,代理将继续解码实体标识符部分。与提到部分的解码类似,如果只有一个实体与解码的提到相关联,代理将直接复制这个候选实体(例如图1中使用斜体字体的“SteveJobs”)。否则,代理将动态构造一个包含关联实体的前缀树来约束实体标识符的生成(如图中斜体中的“Apple”和“AppleInc.”)。
- 这个过程只包含一个向量检索的成本,这使得INSGENEL-R对生成模型的调用减少了90%,不再依赖于一个庞大的、预定义的前缀树。由于检索过程考虑了实体描述,因此它减轻了生成式EL范式固有的挑战,即区分具有相似标识符的实体。
INSGENEL-ICL: In-Context Learning Entity Linking Paradigm
- 使用大型语言模型(LLMs)的上下文学习(ICL)在许多NLP任务中都表现出了很强的zero-shot和few-shot性能。然而,将ICL直接应用于实体链接(EL)是困难的,这主要是由于上下文窗口大小的限制,使得生成模型无法直接访问大量的候选实体标识符。尽管如此,我们配备了一个训练好的检索器,我们将EL任务压缩为一个高级机器阅读理解(MRC)问题:给定潜在的实体和文档,LLM需要从文档中选择提及的跨度和各自的实体。
- INSGENEL-ICL范式从一个固定的范例和任务指令开始,这两者都作为上下文演示输入给LLM。任务指令提示词经过迭代改进,集成了著名的提示工程技术,如坏添加样例样本,并利用了自动提示优化技巧优化prompt。
- 值得注意的是,每个预测的最终结果都与一个正则表达式匹配;为了防止由于同一文档中出现多个相同的字符串而解析失败,我们要求模型不仅输出范例中提到的文本,还输出周围的上下文以实现精确的跨度匹配。