Retrieval Augmented Generation - 2023年06月

Meta-training with Demonstration Retrieval for Efficient Few-shot Learning

发布时间：2023-06-30

作者：Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz

中文摘要：

大型语言模型在少样本NLP任务上展现出令人印象深刻的成果。然而，这些模型在内存和计算上都非常密集。元训练允许以领域通用和任务无关的方式利用较小的模型进行少样本泛化；然而，仅使用这些方法会导致模型可能缺乏足够的参数化或知识来快速适应大量不同的任务。为了克服这个问题，我们提出了带有演示检索的元训练方法，其中我们使用密集段落检索器为每个示例检索语义上相似的标记演示，以获得更多样化的监督。通过将外部知识从模型参数中分离出来，我们可以使用元训练来训练参数高效的模型，这些模型在更大范围的任务上泛化良好。我们从UnifiedQA和CrossFit构建了一个元训练集，并基于UnifiedQA任务提出了一个演示库。据我们所知，我们的工作是第一个将检索与元训练相结合的工作，使用DPR模型检索演示，并利用来自许多任务的演示，而不是从目标任务的训练集中随机采样演示。我们的方法在问答（包括SQuAD）、自然语言推理（NLI）和文本分类任务（包括QNLI和TREC）上优于各种目标参数高效和检索增强的少样本方法。我们的方法可以在单个GPU上快速进行元训练和微调。

一句话总结：

我们提出了一种结合检索和元训练的方法，通过利用来自多个任务的演示来训练参数高效的模型，从而在少样本NLP任务上取得了显著的性能提升。

RAPGen: An Approach for Fixing Code Inefficiencies in Zero-Shot

发布时间：2023-06-29

作者：Spandan Garg, Roshanak Zilouchian Moghaddam, Neel Sundaresan

中文摘要：

性能缺陷是非功能性缺陷，甚至可能出现在经过充分测试的商业产品中。修复这些性能缺陷是一个重要且具有挑战性的问题。在这项工作中，我们应对这一挑战，并提出了一种名为检索增强提示生成（Retrieval-Augmented Prompt Generation，RAPGen）的新方法。给定一个存在性能问题的代码片段，RAPGen首先从先前性能缺陷修复的预构建知识库中检索一个提示指令，然后使用检索到的指令生成一个提示。随后，它使用这个提示在大型语言模型（如Codex）上进行零样本生成一个修复方案。我们将我们的方法与性能修复任务中的各种提示变体和最先进的方法进行了比较。我们的评估显示，在专家验证的C#开发者过去所做的性能更改数据集中，RAPGen可以生成与开发者相当或更好的性能改进建议，其中大约42%的建议是直接引用的，大约60%的情况中生成的建议与开发者相当或更好。

一句话总结：

RAPGen通过检索先前性能缺陷修复的知识库，生成提示并应用于大型语言模型，以生成与开发者相当或更好的性能改进建议。

LeanDojo: Theorem Proving with Retrieval-Augmented Language Models

发布时间：2023-06-27

作者：Kaiyu Yang, Aidan M. Swope, Alex Gu, Rahul Chalamala, Peiyang Song, Shixing Yu, Saad Godil, Ryan Prenger, Anima Anandkumar

中文摘要：

大型语言模型（LLMs）在利用Lean等证明辅助工具证明形式化定理方面展现出潜力。然而，由于私有代码、数据和大量计算需求，现有方法难以复制或构建。这为机器学习在定理证明中的应用研究设置了重大障碍。本文通过引入LeanDojo消除了这些障碍：一个由工具包、数据、模型和基准组成的开源Lean游乐场。LeanDojo从Lean中提取数据，并允许以编程方式与证明环境交互。它包含对证明中前提的细粒度注释，为前提选择提供了宝贵的数据：定理证明中的关键瓶颈。利用这些数据，我们开发了ReProver（检索增强证明器）：一个基于LLM的证明器，通过检索从庞大的数学库中选择前提。它成本低廉，仅需一周GPU时间进行训练。我们的检索器利用LeanDojo的程序分析能力来识别可访问的前提和困难负例，这使得检索更加有效。此外，我们构建了一个新的基准，包含从Lean数学库中提取的98,734个定理和证明。它具有具有挑战性的数据分割，要求证明器泛化到依赖于从未在训练中使用的创新前提的定理。我们使用这个基准进行训练和评估，实验结果表明ReProver在非检索基线和GPT-4之上具有有效性。因此，我们提供了第一套基于开源LLM的定理证明器，没有任何专有数据集，并使用MIT许可发布，以促进进一步的研究。

一句话总结：

本文提出了一种基于LLM的定理证明方法ReProver，通过LeanDojo平台和检索增强技术，实现了高效且可复制的定理证明过程。

UAlberta at SemEval-2023 Task 1: Context Augmentation and Translation for Multilingual Visual Word Sense Disambiguation

发布时间：2023-06-24

作者：Michael Ogezi, Bradley Hauer, Talgat Omarov, Ning Shi, Grzegorz Kondrak

中文摘要：

本文描述了阿尔伯塔大学团队在SemEval-2023视觉词语消歧（V-WSD）任务中的系统。我们提出了一种新颖的算法，该算法利用从BabelNet检索到的释义，并结合文本和图像编码器。此外，我们还比较了针对特定语言的编码器与应用于翻译文本的英语编码器的应用效果。由于任务数据集中的上下文非常短，我们还尝试通过添加由语言模型生成的描述来增强这些上下文。这显著提高了准确率。我们还描述和评估了使用图像生成和文本条件图像分割的额外V-WSD方法。总体而言，我们官方提交的结果在56个团队中排名第18。我们的一些非官方结果甚至比官方结果更好。我们的代码在https://github.com/UAlberta-NLP/v-wsd上公开可用。

一句话总结：

阿尔伯塔大学团队在SemEval-2023视觉词语消歧任务中提出了一种结合BabelNet释义和文本图像编码器的新算法，并通过上下文增强和图像生成技术显著提升了消歧准确率。

Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval

发布时间：2023-06-23

作者：Ohad Rubin, Jonathan Berant

中文摘要：

检索增强语言模型（Retrieval-augmented language models，简称LMs）近年来受到了广泛关注。然而，通常检索器并非作为语言模型（LM）的固有组成部分进行联合训练，而是作为后置组件添加到已经预训练的语言模型中，这限制了语言模型和检索器相互适应的能力。在本工作中，我们提出了检索预训练Transformer（Retrieval-Pretrained Transformer，简称RPT），这是一种从零开始联合训练检索增强语言模型的架构和训练过程，并将其应用于建模长文本的任务。给定长文档中最近生成的文本片段，语言模型计算查询表示，然后使用这些表示检索文档中较早的片段，这些片段可能位于数万个标记之前。检索到的片段中的信息被融合到语言模型的表示中，以预测下一个目标片段。我们使用语义目标训练检索器组件，其目标是检索能够根据参考语言模型增加下一个片段概率的片段。我们在四个涉及书籍、代码和数学写作的长距离语言建模任务上评估了RPT，并证明了与强大的基线相比，RPT在检索质量和随后困惑度方面均有提升。

一句话总结：

RPT通过联合训练检索增强语言模型，显著提升了长文本建模任务的检索质量和困惑度。

UniMC: A Unified Framework for Long-Term Memory Conversation via Relevance Representation Learning

发布时间：2023-06-18

作者：Kang Zhao, Wei Liu, Jian Luan, Minglei Gao, Li Qian, Hanlin Teng, Bin Wang

中文摘要：

开放域长期记忆对话能够与人类建立长期的亲密关系，其关键在于理解和记忆长期对话历史信息的能力。现有工作通过流水线整合多个模型进行建模，忽略了不同阶段之间的耦合。在本文中，我们提出了一种统一框架用于长期记忆对话（UniMC），通过学习相关性表示来增强不同阶段之间的联系。具体来说，我们基于概率图将主要任务分解为三个子任务：1）对话摘要，2）记忆检索，3）记忆增强生成。每个子任务都涉及学习一个表示来计算查询与记忆之间的相关性，这通过在解码器输入的开头插入一个特殊标记来实现。相关性表示学习通过参数共享和联合训练加强了子任务之间的联系。大量的实验结果表明，提出的方法在强基线之上持续改进，并产生了更好的对话一致性和吸引力。

一句话总结：

本文提出的UniMC框架通过学习相关性表示，增强了长期记忆对话中不同子任务之间的联系，显著提升了对话的一致性和吸引力。

Explaining Legal Concepts with Augmented Large Language Models (GPT-4)

发布时间：2023-06-15

作者：Jaromir Savelka, Kevin D. Ashley, Morgan A. Gray, Hannes Westermann, Huihui Xu

中文摘要：

法律专业人士的关键任务之一是解释法律开放性术语的含义。这种解释的一个重要来源是术语在先前法院案件中的应用。在本文中，我们评估了GPT-4在生成立法中术语的事实准确、清晰和相关的解释方面的性能。我们将基线设置（直接要求GPT-4解释一个法律术语）的性能与增强方法（使用法律信息检索模块，以案例法中的句子形式提供相关上下文）进行了比较。我们发现，GPT-4的直接应用似乎产生了表面质量非常高的解释。然而，详细分析揭示了解释在事实准确性方面的局限性。此外，我们发现增强方法提高了质量，并似乎消除了模型发明错误陈述的幻觉问题。这些发现为构建能够自主从案例法中检索相关句子并将它们浓缩成对法律学者、教育工作者或执业律师有用的解释的系统打开了大门。

一句话总结：

本文评估了GPT-4在解释法律术语方面的性能，发现通过增强方法可以提升解释质量并减少幻觉问题。

WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences

发布时间：2023-06-13

作者：Xiao Liu, Hanyu Lai, Hao Yu, Yifan Xu, Aohan Zeng, Zhengxiao Du, Peng Zhang, Yuxiao Dong, Jie Tang

中文摘要：

我们提出了WebGLM，这是一个基于通用语言模型（GLM）的Web增强问答系统。其目标是增强预训练的大型语言模型（LLM）的网页搜索和检索能力，同时确保在实际部署中的效率。为了实现这一目标，我们开发了WebGLM，其中包括LLM增强检索器、自举生成器和人类偏好感知评分器的策略。具体来说，我们识别并解决了WebGPT（OpenAI）的局限性，这使得WebGLM在准确性、效率和成本效益方面具有优势。此外，我们提出了评估Web增强问答系统的系统标准。我们进行了多维人类评估和定量消融研究，这些研究表明所提出的WebGLM设计优于现有系统。具有100亿参数的GLM（10B）在人类评估中表现优于同等规模的WebGPT（13B），甚至与WebGPT（175B）相当。代码、演示和数据可在\url{https://github.com/THUDM/WebGLM}找到。

一句话总结：

WebGLM是一种基于GLM的Web增强问答系统，通过增强检索器和生成器策略，实现了在准确性和效率方面的提升。

PoET: A generative model of protein families as sequences-of-sequences

发布时间：2023-06-09

作者：Timothy F. Truong Jr, Tristan Bepler

中文摘要：

蛋白质生成语言模型是设计具有特定功能的新蛋白质的一种自然方式。然而，现有的模型要么难以指导生成特定家族的蛋白质，要么必须训练于特定家族的大规模多序列比对（MSA），这使得它们无法从跨家族的迁移学习中受益。为了解决这个问题，我们提出了蛋白质进化转换器（PoET），这是一个自回归的蛋白质家族生成模型，它通过学习在数千万个天然蛋白质序列簇中生成相关蛋白质的序列序列集。PoET可以用作检索增强语言模型，以生成和评分基于任何感兴趣蛋白质家族的任意修改，并且可以从短上下文长度外推，即使对于小家族也能很好地泛化。这是通过一个独特的Transformer层实现的；我们在序列内按顺序建模标记，同时在序列之间无序地关注，使得PoET能够扩展到训练期间使用的上下文长度之外。在深度突变扫描数据集上的广泛实验中，我们表明PoET在所有MSA深度的蛋白质变异功能预测方面优于现有的蛋白质语言模型和进化序列模型。我们还展示了PoET可控生成新蛋白质序列的能力。

一句话总结：

PoET是一种创新的蛋白质生成模型，能够通过迁移学习有效地预测蛋白质变异功能，并可控地生成新的蛋白质序列。

RETA-LLM: A Retrieval-Augmented Large Language Model Toolkit

发布时间：2023-06-08

作者：Jiongnan Liu, Jiajie Jin, Zihan Wang, Jiehan Cheng, Zhicheng Dou, Ji-Rong Wen

中文摘要：

尽管大型语言模型（LLMs）在许多领域展现出了非凡的能力，但它们仍然倾向于在用户请求下产生幻觉和虚构的响应。通过将信息检索（IR）系统（也称为检索增强型LLMs）与LLMs相结合，可以缓解这一问题。应用这一策略，LLMs可以根据信息检索系统从外部语料库检索的相关内容作为参考，生成更多事实性的文本来响应用户输入。此外，通过整合外部知识，检索增强型LLMs可以回答仅依靠参数中存储的世界知识无法回答的领域内问题。为了支持该领域的研究并促进检索增强型LLM系统的开发，我们开发了RETA-LLM，一个检索增强型LLM工具包。在RETA-LLM中，我们创建了一个完整的流程，帮助研究人员和用户构建他们定制的基于LLM的领域内系统。与之前的检索增强型LLM系统相比，RETA-LLM提供了更多即插即用的模块，以支持IR系统和LLMs之间更好的交互，包括请求重写、文档检索、段落提取、答案生成和事实核查模块。我们的工具包可在https://github.com/RUC-GSAI/YuLan-IR/tree/main/RETA-LLM公开获取。

一句话总结：

RETA-LLM是一个检索增强型LLM工具包，旨在通过整合信息检索系统来提高LLMs生成事实性文本和回答领域内问题的能力。

Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering

发布时间：2023-06-07

作者：Jinheon Baek, Alham Fikri Aji, Amir Saffari

中文摘要：

大型语言模型（LLMs）能够基于其在预训练期间参数中存储的内部知识执行零样本闭卷问答任务。然而，这种内部知识可能不足且不正确，这可能导致LLMs生成事实错误答案。此外，微调LLMs以更新其知识成本高昂。为此，我们提出直接在LLMs的输入中增强知识。具体来说，我们首先根据问题与其相关事实之间的语义相似性，从知识图中检索与输入问题相关的相关事实。随后，我们将检索到的事实以提示的形式添加到输入问题之前，然后将该提示转发给LLMs以生成答案。我们的框架，知识增强语言模型提示（KAPING），无需模型训练，因此完全零样本。我们在知识图谱问答任务上验证了我们的KAPING框架的性能，该任务旨在根据知识图谱上的事实回答用户的问题，在我们的框架中，平均性能比相关的零样本基线高出48%，跨越了多种大小不同的LLMs。

一句话总结：

该研究提出了一种名为KAPING的框架，通过在LLMs输入中直接增强知识来提高零样本闭卷问答任务的准确性。

TimelineQA: A Benchmark for Question Answering over Timelines

发布时间：2023-06-01

作者：Wang-Chiew Tan, Jane Dwivedi-Yu, Yuliang Li, Lambert Mathias, Marzieh Saeidi, Jing Nathan Yan, Alon Y. Halevy

中文摘要：

生活日志是对一个人在其一生中经历的经历的描述。生活日志通过融合来自众多数字服务的数据（如在线照片、地图、购物和内容流媒体服务）而创建。在生活日志上进行问答可以为个人助理提供在特定情境下提供建议的关键资源。然而，由于各种原因，包括最显著的原因是生活日志结合了自由文本和一定程度的结构（如时间和地理信息），在生活日志上获得问题的答案超出了当前问答技术的水平。我们创建并公开发布了TimelineQA1，这是一个加速查询生活日志进展的基准。TimelineQA生成虚构人物的生活日志。生活日志中的事件从重大的生活事件（如高中毕业）到日常发生的事件（如跑步）不等。我们对TimelineQA进行了一系列实验，使用了几个最先进的问答模型。我们的实验表明，对于原子查询，一个抽取式问答系统显著优于一个最先进的检索增强型问答系统。对于涉及聚合的多跳查询，我们展示了在可用的事实集用于推导答案的情况下，使用最先进的表格问答技术可以获得最佳结果。

一句话总结：

该研究通过创建TimelineQA基准，加速了对生活日志进行查询的进展，并揭示了不同问答模型在处理生活日志数据时的性能差异。