Retrieval Augmented Generation - 2021年08月

Robust Retrieval Augmented Generation for Zero-shot Slot Filling

发布时间：2021-08-31

作者：Michael Glass, Gaetano Rossiello, Md Faisal Mahbub Chowdhury, Alfio Gliozzo

中文摘要：

从给定文档集合中自动诱导高质量知识图谱仍然是在人工智能领域中的一个具有挑战性的问题。解决这一问题的方法之一是通过改进一个相关任务，即槽填充。在这个任务中，给定一个以[实体，槽，?]形式的实体查询，系统被要求通过利用从给定文档集合中提取的相关段落中的证据来生成或提取缺失值来填充槽。该领域的最新工作试图通过基于检索的语言模型以端到端的方式解决这个问题。在本文中，我们提出了一种新颖的零样本槽填充方法，该方法通过扩展密集段落检索并采用硬负样本和鲁棒训练程序来增强检索生成模型。我们的模型在T-REx和zsRE槽填充数据集上报告了显著的改进，提高了段落检索和槽值生成，并在KILT排行榜上排名第一位。此外，我们通过结合零/少量样本学习，展示了我们系统的鲁棒性，证明了其在TACRED数据集的新变体上进行槽填充的领域自适应能力。我们发布了源代码和预训练模型。

一句话总结：

本文提出了一种基于检索增强生成模型的零样本槽填充方法，显著提高了知识图谱构建的效率和质量。

BoostNSift: A Query Boosting and Code Sifting Technique for Method Level Bug Localization

发布时间：2021-08-29

作者：Abdul Razzaq, Jim Buckley, James Vincent Patten, Muslim Chochlov, Ashish Rajendra Sai

中文摘要：

定位软件系统中的错误是一个重要但耗时且劳动密集型的任务。为了解决这个问题，信息检索（IR）技术越来越多地被用于针对给定的错误报告建议潜在的错误源代码位置。尽管IR技术在理论上具有很高的可扩展性，但在实践中，它们在准确定位软件系统中的错误方面的有效性仍然较低。实证研究表明，通过配置用于定位错误代码的查询，可以提高错误定位技术的有效性。然而，在大多数由研究人员提出的基于IR的错误定位技术中，查询配置的影响并未得到充分考虑。类似地，在定位错误时，技术将所有代码元素视为同等可疑的错误源，但这并不总是正确的。在本文中，我们提出了一种名为“BoostNSift”的新方法级信息检索（IR）错误定位技术。BoostNSift通过“boost”（增强）查询中的重要信息，然后根据一种新颖的技术“sift”（筛选）识别的代码元素，该技术强调代码元素与错误报告的特定相关性，而不是与所有错误报告的泛相关性。为了评估BoostNSift的性能，我们采用了用于评估基于文件级IR的错误定位技术的最先进的实证设计：从常用的Eclipse、AspectJ、SWT和ZXing基准中选择了6851个错误，并将其公开用于方法级分析。

一句话总结：

本文提出了一种名为“BoostNSift”的新方法级信息检索错误定位技术，通过增强查询信息并筛选与错误报告特定相关的代码元素，以提高错误定位的准确性。

Distilling the Knowledge of Large-scale Generative Models into Retrieval Models for Efficient Open-domain Conversation

发布时间：2021-08-28

作者：Beomsu Kim, Seokjun Seo, Seungju Han, Enkhbayar Erdenee, Buru Chang

中文摘要：

尽管大规模生成模型在开放域对话中表现出色，但由于高延迟，它们在构建实时对话系统中不太实用。另一方面，检索模型可以以更低的延迟返回响应，但由于对话质量受预定义的响应集限制，其性能不如大规模生成模型。为了利用这两种方法的优势，我们提出了一种名为G2R（生成到检索蒸馏）的新训练方法，通过将生成模型的知识融入检索模型，在保持检索模型效率的同时利用大规模生成模型的对话能力。G2R包括两种不同的蒸馏技术：数据级G2R通过大规模生成模型生成的额外响应来扩充对话数据集，而模型级G2R通过知识蒸馏损失将生成模型评估的响应质量分数转移到检索模型的分数。通过包括人工评估在内的大量实验，我们证明了使用G2R训练的基于检索的对话系统与基线检索模型相比性能显著提高，同时比大规模生成模型具有显著更低的推理延迟。

一句话总结：

G2R训练方法通过将生成模型的知识融入检索模型，实现了在保持低延迟的同时显著提升对话系统的性能。

Similar Scenes arouse Similar Emotions: Parallel Data Augmentation for Stylized Image Captioning

发布时间：2021-08-26

作者：Guodun Li, Yuchen Zhai, Zehao Lin, Yin Zhang

中文摘要：

风格化图像标题系统旨在生成一个不仅与给定图像语义相关，而且与给定风格描述一致的标题。这项任务的一个最大挑战是缺乏足够的配对风格化数据。许多研究集中于无监督方法，而没有从数据增强的角度进行考虑。我们从观察开始，即人们在相似的场景中可能会回忆起相似的情感，并且经常用相似的风格短语来表达这些情感，这为我们数据增强的想法奠定了基础。在本文中，我们提出了一种新颖的提取-检索-生成数据增强框架，从小型风格化句子中提取风格短语并将其嫁接到大型事实性标题上。首先，我们设计了情感信号提取器，从小型风格化句子中提取风格短语。其次，我们构建了一个可插拔的多模态场景检索器，用于检索用图像及其风格化标题表示的场景，这些场景与大规模事实数据中的查询图像或标题相似。最后，基于相似场景的风格短语和当前场景的事实描述，我们构建了情感感知的标题生成器，为当前场景生成流畅且多样化的风格化标题。大量的实验结果表明，我们的框架可以有效地缓解数据稀缺问题。它还在监督和无监督设置中显著提高了几个现有图像标题模型的性能，在句子相关性和风格性方面都大幅优于最先进风格化图像标题方法。

一句话总结：

本文提出了一种基于情感感知的数据增强框架，有效缓解了风格化图像标题系统中的数据稀缺问题，显著提升了现有模型的性能。

Retrieval Augmented Code Generation and Summarization

发布时间：2021-08-26

作者：Md Rizwan Parvez, Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang

中文摘要：

在软件开发过程中，软件开发者会编写大量的源代码和文档。本质上，开发者在实现软件或对其文档化时，经常会回忆起他们以前编写过的部分源代码或代码摘要。为了模拟开发者的代码或摘要生成行为，我们提出了一种检索增强框架，称为REDCODER，该框架从检索数据库中检索相关代码或摘要，并将它们作为代码生成或摘要模型的补充。REDCODER具有几个独特之处。首先，它将最先进的密集检索技术扩展到搜索相关代码或摘要。其次，它可以与包含单模态（仅代码或自然语言描述）或双模态实例（代码-描述对）的检索数据库一起工作。我们在Java和Python的代码生成和摘要的两个基准数据集上进行了实验和广泛的分析，并取得了有希望的结果，这证实了我们提出的检索增强框架的有效性。

一句话总结：

REDCODER通过检索数据库中的相关代码或摘要，为代码生成或摘要模型提供补充，从而提高代码生成和摘要的效率。

GQE-PRF: Generative Query Expansion with Pseudo-Relevance Feedback

发布时间：2021-08-13

作者：Minghui Huang, Dong Wang, Shuang Liu, Meizhen Ding

中文摘要：

查询扩展与伪相关性反馈（PRF）是一种增强信息检索有效性的强大方法。近年来，随着深度学习技术的快速发展，神经文本生成在许多自然语言任务中取得了令人鼓舞的成功。为了利用文本生成在信息检索中的优势，本文提出了一种新颖的方法，该方法有效地将文本生成模型集成到基于PRF的查询扩展中。具体来说，我们的方法通过神经文本生成模型，在初始查询和伪相关性反馈的条件下生成增强的查询词。此外，为了训练生成模型，我们采用了条件生成对抗网络（CGANs），并提出了PRF-CGAN方法，其中生成器和判别器都基于伪相关性反馈进行条件化。我们使用两个基准数据集评估了我们的方法在信息检索任务中的性能。实验结果表明，我们的方法在检索和重排序任务上均实现了与传统查询扩展方法相当的性能，甚至有所超越。

一句话总结：

本文提出了一种基于神经文本生成和伪相关性反馈的查询扩展新方法，通过条件生成对抗网络实现了信息检索性能的提升。

Distilling Transformers for Neural Cross-Domain Search

发布时间：2021-08-06

作者：Colin B. Clement, Chen Wu, Dawn Drain, Neel Sundaresan

中文摘要：

最近，预训练的Transformer在自然语言处理的各种任务中取得了领先地位，并开创了软件工程任务的解决方案。即使信息检索也无法抵挡Transformer的魅力，尽管它们的大规模和成本通常是部署的障碍。尽管已经有很多工作致力于优化、缓存和修改Transformer架构以用于生产，但在这里我们探索了一个新的方向：将大型预训练翻译模型蒸馏成一个轻量级的双编码器，它可以被有效地缓存和查询。我们从概率的角度论证，序列到序列模型在概念上是理想的检索器——尽管非常不切实际。我们推导出一个新的蒸馏目标，将其实现为一个数据增强方案。以自然语言源代码搜索作为跨领域搜索的案例研究，我们通过显著提高CodeSearchNet挑战赛当前领先者的性能，证明了这一想法的有效性，CodeSearchNet是一个最近的自然语言代码搜索基准。

一句话总结：

本研究通过将大型预训练翻译模型蒸馏成轻量级双编码器，显著提高了自然语言代码搜索的性能。