Retrieval Augmented Generation - 2023年02月

kNN-BOX: A Unified Framework for Nearest Neighbor Generation

发布时间：2023-02-27

作者：Wenhao Zhu, Qianfeng Zhao, Yunzhe Lv, Shujian Huang, Siheng Zhao, Sizhe Liu, Jiajun Chen

中文摘要：

本文提出了一种基于基神经模型和token级符号数据存储的增强生成范式，该范式在机器翻译（MT）领域取得了令人鼓舞的结果。我们引入了一个统一的框架kNN-BOX，它能够快速开发并交互式分析这一新颖的范式。kNN-BOX将数据存储增强方法分解为三个模块：数据存储、检索器和组合器，从而将不同的kNN生成方法统一化。目前，kNN-BOX已提供了七种流行的kNN-MT变体的实现，涵盖了从性能提升到效率优化的研究。用户可以轻松地复现这些现有工作或自定义自己的模型。此外，用户可以使用kNN-BOX与他们的kNN生成系统进行交互，以可视化方式更好地理解其背后的推理过程。在实验部分，我们将kNN-BOX应用于机器翻译以及三种其他seq2seq生成任务，即文本简化、释义生成和问题生成。实验结果表明，在所有这些任务中，通过kNN-BOX增强基神经模型都能带来显著的性能提升。kNN-BOX的代码和文档可在https://github.com/NJUNLP/knn-box找到。

一句话总结：

kNN-BOX是一种统一的框架，通过增强基神经模型和token级符号数据存储，显著提升了机器翻译和其他seq2seq生成任务的表现。

On the Generalization Ability of Retrieval-Enhanced Transformers

发布时间：2023-02-23

作者：Tobias Norlund, Ehsan Doostmohammadi, Richard Johansson, Marco Kuhlmann

中文摘要：

最近关于检索增强的Transformer（RETRO）模型的研究表明，将可训练权重从内存卸载到检索数据库可以显著提高语言建模性能，并匹配那些规模大一个数量级的非检索模型的性能。有人提出，这种性能提升至少部分归因于基于模型权重和检索的非平凡泛化。在本文中，我们试图更好地理解这两个组件的相对贡献。我们发现，检索带来的性能提升主要源于数据库和测试数据之间的重叠标记，这表明泛化程度比之前假设的要小。更普遍地说，我们的结果指向了评估检索增强语言模型（如RETRO）泛化的挑战，因为即使是有限的标记重叠也可能显著降低测试时间损失。我们在https://github.com/TobiasNorlund/retro发布了我们的代码和模型。

一句话总结：

本文研究了检索增强的Transformer模型（RETRO）的性能提升，发现其泛化能力比预期的小，并揭示了评估此类模型泛化的挑战。

发布时间：2023-02-22

作者：Tom van Sonsbeek, Marcel Worring

中文摘要：

医学图像及其上下文分析中，人类分析的一个重要组成部分是将新看到的事物与我们记忆中的相关实例联系起来。在本文中，我们通过使用多模态检索增强来模拟这种能力，并将其应用于胸部X光分析中的多个任务。通过检索相似图像和/或放射学报告，我们通过额外的知识扩展和正则化当前案例，同时保持事实知识的一致性。该方法由两个部分组成。首先，使用预训练的CLIP模型对视觉和语言模态进行对齐。为了确保检索焦点将集中在详细的疾病相关内容而不是全局视觉外观上，它使用疾病类别信息进行微调。随后，我们构建了一个非参数检索索引，达到了最先进的检索水平。我们使用这个索引在我们的下游任务中通过多头注意力增强图像表示，用于疾病分类和报告检索。我们表明，检索增强在这些任务上带来了显著的改进。我们的下游报告检索甚至显示出与专门的报告生成方法相竞争，为这种方法在医学成像中的应用铺平了道路。

一句话总结：

本文提出了一种基于多模态检索增强的胸部X光分析新方法，通过检索相似图像和报告来增强图像表示，显著提高了疾病分类和报告检索的性能。

Steerable Equivariant Representation Learning

发布时间：2023-02-22

作者：Sangnie Bhardwaj, Willie McClinton, Tongzhou Wang, Guillaume Lajoie, Chen Sun, Phillip Isola, Dilip Krishnan

中文摘要：

预训练的深度图像表示对于通过迁移学习进行分类、图像检索和目标检测等后训练任务非常有用。数据增强是监督学习和自监督设置中预训练鲁棒表示的关键方面。数据增强显式或隐式地促进了嵌入空间中对输入图像变换的不变性。这种不变性减少了泛化到那些依赖于对这些特定数据增强敏感性的下游任务。在本文中，我们提出了一种学习表示的方法，该方法对数据增强是等变的。我们通过使用可操控表示来实现这种等变性。我们的表示可以通过学习到的线性映射直接在嵌入空间中操作。我们证明了我们的可操控和等变表示在迁移学习和鲁棒性方面带来了更好的性能：例如，我们通过迁移学习将线性探针的top-1准确率提高了1%到3%；并将ImageNet-C准确率提高了高达3.4%。我们还进一步表明，我们表示的可操控性为测试时增强提供了显著的加速（近50倍）；通过应用大量增强进行分布外检测，我们在ImageNet-C数据集上显著提高了不变表示的OOD AUC。

一句话总结：

本文提出了一种通过使用可操控表示来学习对数据增强等变的图像表示方法，从而在迁移学习和鲁棒性方面提高了性能，并显著加速了测试时的数据增强过程。

Retrieval-augmented Image Captioning

发布时间：2023-02-16

作者：Rita Ramos, Desmond Elliott, Bruno Martins

中文摘要：

受检索增强语言生成和预训练的视觉与语言（V&L）编码器的启发，我们提出了一种新的图像描述方法，该方法在给定输入图像和从数据存储中检索到的一组描述的基础上生成句子，而不是仅基于图像本身。我们模型中的编码器使用预训练的V&L BERT联合处理图像和检索到的描述，而解码器关注多模态编码器的表示，并从检索到的描述中受益于额外的文本证据。在COCO数据集上的实验结果表明，从这一新视角出发可以有效地进行图像描述。我们的模型，命名为EXTRA，通过使用从训练数据集中检索到的描述而受益，并且无需重新训练即可从使用外部数据集中受益。消融研究表明，检索足够数量的描述（例如，k=5）可以提高描述质量。我们的工作有助于将预训练的V&L编码器用于生成任务，而不是标准的分类任务。

一句话总结：

该研究提出了一种基于预训练视觉与语言编码器的图像描述新方法，通过结合图像和检索到的描述来生成更高质量的描述句子。

How to Train Your DRAGON: Diverse Augmentation Towards Generalizable Dense Retrieval

发布时间：2023-02-15

作者：Sheng-Chieh Lin, Akari Asai, Minghan Li, Barlas Oguz, Jimmy Lin, Yashar Mehdad, Wen-tau Yih, Xilun Chen

中文摘要：

近年来，为了提高密集检索（DR）的效果，开发了各种技术，如无监督对比学习和伪查询生成。然而，现有的DR系统往往在监督检索和零样本检索之间存在效果上的权衡，有些人认为这是由于模型容量有限所致。我们对此假设提出异议，并表明可以通过训练一个可泛化的DR模型，在监督检索和零样本检索中均达到高精度，而无需增加模型大小。特别是，我们在数据增强（DA）的框架下系统地研究了DR的对比学习。我们的研究表明，常见的DA实践，如使用生成模型进行查询增强和利用交叉编码器创建伪相关标签，通常效率低下且次优。因此，我们提出了一种新的DA方法，该方法使用多样化的查询和监督来源来逐步训练一个可泛化的DR。结果，我们训练的DRAGON密集检索器，是第一个在监督和零样本评估中均达到最先进效果的BERT-base大小的DR，甚至可以与使用更复杂的后期交互（ColBERTv2和SPLADE++）的模型相媲美。

一句话总结：

本研究提出了一种新的数据增强方法，显著提高了密集检索在监督和零样本检索任务中的性能，并实现了BERT-base规模的模型在两个任务上的最先进效果。

Learning Performance-Improving Code Edits

发布时间：2023-02-15

作者：Alexander Shypula, Aman Madaan, Yimeng Zeng, Uri Alon, Jacob Gardner, Milad Hashemi, Graham Neubig, Parthasarathy Ranganathan, Osbert Bastani, Amir Yazdanbakhsh

中文摘要：

随着摩尔定律的放缓，优化程序性能已成为软件研究的主要焦点。然而，由于理解代码语义的困难，高级优化如API和算法更改仍然难以捉摸。同时，预训练的大型语言模型（LLMs）在解决广泛的编程任务方面表现出强大的能力。为此，我们提出了一种将LLMs应用于高级程序优化的框架。首先，我们收集了一个包含77,000多对竞争性C++编程提交的编辑数据集，这些编辑由人类程序员进行，并伴随着广泛的单元测试。一个主要挑战是，在通用硬件上衡量性能的显著可变性，这可能导致虚假的“改进”。为了隔离和可靠地评估程序优化的影响，我们设计了一个基于gem5全系统模拟器（学术界和工业界事实上的模拟器）的环境。接下来，我们提出了广泛适用于代码优化的适应策略；对于提示，这些包括基于检索的少样本提示和思维链，而对于微调，这些包括基于性能的生成和基于自我游戏的合成数据增强。这些技术的组合实现了平均6.86倍的速度提升，比个别程序员的平均优化（3.66倍）更高。使用我们模型最快的几代，我们将我们数据集可能达到的最快速度上限设定为9.64倍，比使用最快的人类提交（9.56倍）更高。

一句话总结：

本研究提出了一种利用预训练大型语言模型进行高级程序优化的框架，通过多种适应策略显著提升了代码性能。

PK-ICR: Persona-Knowledge Interactive Context Retrieval for Grounded Dialogue

发布时间：2023-02-13

作者：Minsik Oh, Joosung Lee, Jiwei Li, Guoyin Wang

中文摘要：

识别与对话系统相关的角色或知识对于基于事实的对话响应生成至关重要。然而，迄今为止，每种基础（grounding）的研究大多都是孤立的，而最近的工作中引入了更多实际的多语境对话任务。我们将角色和知识双重上下文识别定义为识别给定对话中的角色和知识的任务，这在复杂的多语境对话环境中可能具有更高的重要性。我们开发了一种新颖的基于事实检索方法，该方法利用对话的所有上下文信息。我们的方法通过利用神经QA检索模型，需要更少的计算能力。我们进一步引入了一种新颖的空正值排名测试，该测试测量在语义上不相似的样本（即困难负样本）上的排名性能，与数据增强相关。

一句话总结：

本研究提出了一种新颖的基于事实检索方法，通过联合识别角色和知识，提高了复杂多语境对话环境中的对话响应生成能力。

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

发布时间：2023-02-09

作者：Zhuolin Yang, Wei Ping, Zihan Liu, Vijay Korthikanti, Weili Nie, De-An Huang, Linxi Fan, Zhiding Yu, Shiyi Lan, Bo Li, Ming-Yu Liu, Yuke Zhu, Mohammad Shoeybi, Bryan Catanzaro, Chaowei Xiao, Anima Anandkumar

中文摘要：

本文提出了一种基于Flamingo的检索增强视觉语言模型Re-ViLM，该模型支持从外部数据库检索相关知识，以实现零样本和上下文少样本的图像到文本生成。通过在外部数据库中显式存储某些知识，我们的方法减少了模型参数的数量，并在评估过程中通过简单更新数据库即可轻松适应新数据。此外，我们还构建了一种交织的图像和文本数据，这有助于实现上下文少样本学习的能力。实验表明，Re-ViLM在图像到文本生成任务中显著提升了性能，尤其是在与基线方法相比参数减少4倍的情况下，在领域外的零样本和少样本生成中表现尤为出色。

一句话总结：

Re-ViLM通过外部数据库检索知识，显著提升了图像到文本生成任务，特别是在零样本和少样本生成中的性能。

Augmenting Zero-Shot Dense Retrievers with Plug-in Mixture-of-Memories

发布时间：2023-02-07

作者：Suyu Ge, Chenyan Xiong, Corby Rosset, Arnold Overwijk, Jiawei Han, Paul Bennett

中文摘要：

本文通过混合记忆增强（MoMA）机制提升了语言模型的零样本泛化能力，该机制可以从多个信息库（“外部记忆”）中检索增强文档，并在推理时选择性地“插入”新的记忆。我们开发了一种联合学习机制，通过使用从最终检索任务中派生的潜在标签来训练增强组件，并与记忆混合中的硬负样本配对。我们通过将MoMA应用于一个基于T5的强大检索器来在零样本密集检索设置中实例化该模型。我们的模型MoMA在标准BEIR基准测试中的十八个任务上获得了强大的零样本检索准确率，并优于那些通过增加模型参数和计算步骤寻求泛化的系统。我们的分析进一步说明了使用混合记忆增强进行稳健泛化的必要性，增强学习的益处，以及MoMA如何在推理时利用插件记忆而不改变其参数。我们计划开源我们的代码。

一句话总结：

本文提出的MoMA模型通过混合记忆增强机制显著提升了语言模型的零样本泛化能力。