Retrieval Augmented Generation - 2020年05月

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

发布时间：2020-05-22

作者：Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela

中文摘要：

大型预训练语言模型已被证明能够在参数中存储事实性知识，并在下游自然语言处理任务上进行微调时取得最先进的成果。然而，它们访问和精确操作知识的能力仍然有限，因此在知识密集型任务上，它们的性能落后于特定任务的架构。此外，为它们的决策提供证据以及更新它们的世界知识仍然是开放的研究问题。具有可微分访问机制的预训练模型可以克服这一问题，但迄今为止，这些模型仅被用于调查提取下游任务。我们探索了一种用于检索增强生成（RAG）的通用微调配方——这些模型结合了预训练的参数和非参数记忆进行语言生成。我们引入了RAG模型，其中参数记忆是一个预训练的seq2seq模型，非参数记忆是维基百科的密集向量索引，通过预训练的神经检索器进行访问。我们比较了两种RAG公式，一种是在整个生成的序列中对相同的检索段落进行条件化，另一种是每个标记可以使用不同的段落。我们在广泛的知识密集型自然语言处理任务上微调和评估了我们的模型，并在三个开放域问答任务上达到了最先进的水平，优于参数seq2seq模型和特定任务的检索-提取架构。对于语言生成任务，我们发现RAG模型生成的语言比最先进的仅参数seq2seq基线更具体、更丰富、更符合事实。

一句话总结：

本研究提出了一种基于检索增强生成的通用微调配方，显著提升了预训练语言模型在知识密集型自然语言处理任务上的性能。