Retrieval Augmented Generation - 2023年04月

Search-in-the-Chain: Interactively Enhancing Large Language Models with Search for Knowledge-intensive Tasks

发布时间：2023-04-28

作者：Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-Seng Chua

中文摘要：

确保大型语言模型（LLM）生成的内容准确、可信且可追溯至关重要，尤其是在需要多步推理且每一步都需要知识来解决的问题中。检索增强生成具有解决这一问题的良好潜力。然而，如何以及在LLM中引入信息检索（IR）是一个重大挑战。先前的工作存在IR检索到的错误知识误导LLM以及IR与LLM之间的交互打断LLM推理链的问题。本文提出了一种名为“链中搜索”（SearChain）的新框架，用于解决LLM与IR之间的交互挑战。首先，LLM生成一个名为查询链（CoQ）的推理链，其中每个节点由一个面向IR的查询-答案对组成。其次，IR验证CoQ中每个节点的答案。当IR给出高置信度时，它会纠正与检索到的信息不一致的答案，从而提高可信度。第三，LLM可以指示其在CoQ中缺失的知识，并依赖IR为此知识提供支持。这些操作在推理和知识方面提高了准确性。最后，SearChain生成推理过程，并为每个推理步骤标记支持文档的引用，从而提高了可追溯性。SearChain中的IR交互形成了一种基于树的全新推理路径，使LLM能够动态修改推理方向。实验表明，SearChain在多跳问答、槽填充、事实核查和长文本问答等复杂知识密集型任务上优于最先进的基线。

一句话总结：

本文提出的SearChain框架通过在LLM推理过程中引入IR，有效提高了LLM在复杂知识密集型任务中的准确性和可追溯性。

Large Language Models are Strong Zero-Shot Retriever

发布时间：2023-04-27

作者：Tao Shen, Guodong Long, Xiubo Geng, Chongyang Tao, Tianyi Zhou, Daxin Jiang

中文摘要：

在这项工作中，我们提出了一种简单的方法，将大型语言模型（LLM）应用于零样本场景的大规模检索。我们的方法，即语言语言模型作为检索器（LameR），仅基于LLM构建，而打破了检索器与LLM的暴力组合，并将零样本检索的性能提升到在基准数据集上具有非常竞争力的水平。本质上，我们提出通过向LLM提示查询及其领域候选者的组合来增强查询。无论候选者是否正确，它们都是通过在目标集合上的传统检索程序获得的。作为提示的一部分，它们可能会通过模式模仿或候选者摘要帮助LLM生成更精确的答案。即使所有候选者都是错误的，提示至少让LLM意识到集合中的模式和体裁。此外，由于自监督检索器的性能低下，基于LLM的查询增强在检索器成为整个流程瓶颈的情况下变得不那么有效。因此，我们提出利用基于非参数词库的方法（例如，BM25）作为检索模块，以字面方式捕获查询-文档重叠。因此，LameR使检索过程对LLM透明，从而绕过了性能瓶颈。

一句话总结：

提出了一种名为LameR的简单方法，通过结合LLM和传统的检索技术，在零样本检索场景中实现了高性能的文本检索。

Retrieval-based Knowledge Augmented Vision Language Pre-training

发布时间：2023-04-27

作者：Jiahua Rao, Zifei Shan, Longpo Liu, Yao Zhou, Yuedong Yang

中文摘要：

随着大规模视觉和语言表示学习领域的近期进展，视觉语言预训练（VLP）模型在各种多模态下游任务上取得了令人鼓舞的改进。尽管这些模型功能强大，但它们尚未充分利用世界知识。知识增强型VLP的一个关键挑战是知识与多模态数据之间缺乏清晰的联系。此外，并非所有存在于图像/文本中的知识都是有用的，因此先前的方法往往难以有效地整合知识、视觉和文本信息。在本研究中，我们提出了基于检索的知识增强视觉语言（REAVL），这是一个新颖的知识增强预训练框架，旨在解决上述问题。我们首次引入了一种知识感知的自监督学习方案，该方案能够有效地建立知识和多模态数据之间的对应关系，并识别出有用的知识以改善视觉和文本模态之间对齐和交互的建模。通过自适应地将有用知识与视觉和文本信息相结合，REAVL在基于知识的视觉语言理解和多模态实体链接任务上实现了新的最先进性能，同时在一般视觉语言任务上也取得了具有竞争力的结果，而只需使用最佳模型0.2%的预训练数据。我们的模型显示出强大的样本效率和有效的知识利用。

一句话总结：

本研究提出了一种名为REAVL的知识增强视觉语言预训练框架，通过有效整合知识、视觉和文本信息，显著提升了视觉语言理解和多模态实体链接任务的性能。

Compressing Sentence Representation with maximum Coding Rate Reduction

发布时间：2023-04-25

作者：Domagoj Ševerdija, Tomislav Prusina, Antonio Jovanović, Luka Borozan, Jurica Maltar, Domagoj Matijević

中文摘要：

在大多数自然语言推理问题中，句子表示对于语义检索任务至关重要。近年来，预训练的大型语言模型在计算此类表示方面表现出相当的有效性。这些模型产生高维度的句子嵌入。在实际应用中，大型模型与小型模型之间存在明显的性能差距。因此，由于空间和时间硬件限制，在使用通常是大语言模型蒸馏版本的小型模型时，需要达到可比的结果。在本文中，我们通过在预训练的蒸馏模型上增加一个额外学习于最大编码率降低（MCR2）目标（这是一种为通用流形聚类开发的新方法）的投影层，评估了句子表示模型Sentence-BERT的模型蒸馏。我们证明了具有降低复杂度和句子嵌入尺寸的新语言模型可以在语义检索基准测试中实现可比的结果。

一句话总结：

本文通过在预训练的Sentence-BERT模型上增加投影层，实现了降低复杂度和句子嵌入尺寸的模型蒸馏，从而在小型模型上达到了与大型模型可比的语义检索性能。

LaMP: When Large Language Models Meet Personalization

发布时间：2023-04-22

作者：Alireza Salemi, Sheshera Mysore, Michael Bendersky, Hamed Zamani

中文摘要：

本文强调了在大规模语言模型中个性化的重要性，并介绍了LaMP基准——一个用于训练和评估生成个性化输出的语言模型的创新基准。LaMP提供了一个包含多种语言任务和针对每个用户配置文件多个条目的全面评估框架。它包括七个个性化任务，涵盖了三个文本分类和四个文本生成任务。此外，我们还提出了两种检索增强方法，用于从每个用户配置文件中检索个人项目以个性化语言模型输出。为此，我们研究了各种检索模型，包括词项匹配、语义匹配和时间感知方法。在LaMP上进行的零样本和微调语言模型的广泛实验证明了所提出的检索增强方法的有效性，并突出了个性化在多种自然语言任务中的影响。

一句话总结：

本文提出了一种新的基准LaMP，用于评估和训练能够生成个性化输出的语言模型，并通过实验验证了个性化在自然语言处理任务中的重要性。

GeneGPT: Augmenting Large Language Models with Domain Tools for Improved Access to Biomedical Information

发布时间：2023-04-19

作者：Qiao Jin, Yifan Yang, Qingyu Chen, Zhiyong Lu

中文摘要：

尽管大型语言模型（LLMs）在各个任务中得到了成功的应用，但它们仍然面临着幻觉的挑战。通过将领域特定的工具，如数据库实用工具，与LLMs相结合，可以促进更轻松、更精确地访问专业知识。在本文中，我们提出了GeneGPT，这是一种新的方法，用于教导LLMs使用美国国家生物技术信息中心（NCBI）的Web API来回答基因组学问题。具体来说，我们通过上下文学习和一种增强的解码算法，该算法可以检测并执行API调用，提示Codex使用NCBI Web API来解决GeneTuring测试。实验结果表明，GeneGPT在GeneTuring基准测试的八个任务上实现了最先进的性能，平均得分为0.83，大幅超越了如新Bing（0.44）、生物医学LLMs如BioMedLM（0.08）和BioGPT（0.04），以及GPT-3（0.16）和ChatGPT（0.12）。我们的进一步分析表明：（1）API演示具有良好的跨任务泛化能力，并且对于上下文学习来说比文档更有用；（2）GeneGPT可以泛化到更长的API调用链，并在本文中引入的新数据集GeneHop中回答多跳问题；（3）不同任务中富集了不同类型的错误，为未来的改进提供了宝贵的见解。

一句话总结：

GeneGPT通过利用NCBI Web API，显著提升了LLMs在基因组学问题上的回答准确性，并展现出良好的跨任务泛化能力。

BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer

发布时间：2023-04-19

作者：Lucas Georges Gabriel Charpentier, Sondre Wold, David Samuel, Egil Rønningstad

中文摘要：

检索式语言模型在问答任务中的应用越来越广泛。这些模型在文档语料库中搜索相关信息，而不是将所有事实知识存储在其参数中，从而提高了效率、透明度和适应性。我们通过调整REALM框架开发了第一个基于检索的挪威语模型，并在各种任务上对其进行了评估。在训练完成后，我们还把语言模型（我们称之为“读者”）与检索器组件分开，并展示了这种结构可以在一系列下游任务上进行微调。结果显示，检索增强的语言模型能够提高读者在抽取式问答任务上的表现，这表明这种类型的训练提高了语言模型使用上下文的一般能力，并且这种改进并没有以牺牲其他能力（如词性标注、依存句法分析、命名实体识别和词形还原）为代价。代码、训练模型和数据已公开发布。

一句话总结：

该研究通过引入检索增强，提高了挪威语语言模型在问答任务中的性能，同时保持了其他语言处理能力的完整性。

Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study

发布时间：2023-04-13

作者：Boxin Wang, Wei Ping, Peng Xu, Lawrence McAfee, Zihan Liu, Mohammad Shoeybi, Yi Dong, Oleksii Kuchaiev, Bo Li, Chaowei Xiao, Anima Anandkumar, Bryan Catanzaro

中文摘要：

大型仅解码器语言模型（LMs）在困惑度方面可以通过检索（例如，RETRO）得到很大提升，但其对文本生成质量和下游任务准确性的影响尚不明确。因此，这仍然是一个未解决的问题：我们是否应该使用检索来预训练大型自回归LM？为了回答这个问题，我们对可扩展的预训练检索增强LM（即，RETRO）进行了全面研究，并将其与标准GPT以及细调或推理阶段集成的检索增强GPT进行了比较。我们首先提供了重现RETRO的配方，该配方可以处理高达9.5B参数，同时检索包含330B个标记的文本语料库。基于此，我们得到了以下新颖发现：i) 与GPT相比，RETRO在文本生成方面表现出更少的退化（即重复），适度的更高的事实准确性，以及使用非毒性检索数据库的略微较低的毒性。ii) 在LM评估框架基准测试中，RETRO在知识密集型任务上大幅优于GPT，但在其他任务上与GPT相当。此外，我们引入了模型的一个简单变体，RETRO++，它显著提高了原始RETRO在开放域问答（例如，在自然问题上的EM分数+8.6）的结果，并在细调和零样本评估设置中显著优于检索增强GPT。我们的发现突出了使用检索预训练自回归LM作为未来基础模型的具有前景的方向。我们将在以下链接发布我们的代码和模型：https://github.com/NVIDIA/Megatron-LM/blob/main/tools/retro/README.md

一句话总结：

本研究表明，通过检索预训练自回归语言模型可以显著提高文本生成质量和下游任务准确性，为未来基础模型的发展提供了新的方向。

LADER: Log-Augmented DEnse Retrieval for Biomedical Literature Search

发布时间：2023-04-10

作者：Qiao Jin, Ashley Shin, Zhiyong Lu

中文摘要：

在具有相似信息需求的查询中，文档点击往往相似，尤其是在生物医学文献搜索引擎中，查询通常较短，顶级文档占据了大部分的总点击量。受此启发，我们提出了一种新的生物医学文献搜索架构，即Log-Augmented DEnse Retrieval（LADER），这是一个简单的插件模块，它通过从相似训练查询中检索到的点击日志来增强密集检索器。具体来说，LADER通过密集检索器找到与给定查询相似的和查询。然后，LADER根据它们与输入查询的相似度对相似查询的相关（点击）文档进行评分。LADER的最终文档评分是（1）密集检索器的文档相似度评分和（2）来自相似查询点击日志的聚合文档评分的平均值。尽管LADER很简单，但在最近发布的生物医学文献检索基准TripClick上实现了新的最先进（SOTA）性能。在频繁（HEAD）查询上，LADER相对于最佳检索模型在相对NDCG@10（0.338 vs. 0.243）上提高了39%。LADER在较少频繁（TORSO）查询上也取得了更好的性能，相对于之前的SOTA（0.303 vs. 0.272）提高了11%的相对NDCG@10。在相似查询稀缺的罕见（TAIL）查询上，LADER仍然与之前的方法（NDCG@10：0.310 vs. 0.295）相媲美。在所有查询上，LADER可以提高密集检索器的性能，相对NDCG@10提高24%-37%，而无需额外的训练，并且期望通过更多的日志进一步提高性能。我们的回归分析表明，频率更高、查询相似度熵更高、文档相似度熵更低的查询，往往能从日志增强中获得更多益处。

一句话总结：

LADER通过利用点击日志增强密集检索器，显著提升了生物医学文献检索的性能。

Noise-Robust Dense Retrieval via Contrastive Alignment Post Training

发布时间：2023-04-06

作者：Daniel Campos, ChengXiang Zhai, Alessandro Magnani

中文摘要：

本文提出了一种名为Contrastive Alignment POst Training（CAPOT）的高效微调方法，该方法通过冻结文档编码器，同时让查询编码器学习将噪声查询与未改变的根查询对齐，从而在不需要索引重建、训练集优化或修改的情况下提高模型的鲁棒性。在MSMARCO、Natural Questions和Trivia QA的段落检索任务中，CAPOT的噪声变体表现出了与数据增强类似的效果，但没有任何额外的开销。

一句话总结：

CAPOT通过冻结文档编码器并让查询编码器学习对齐噪声查询，实现了一种无需索引重建或训练集优化的高效微调方法，显著提升了检索模型的鲁棒性。