Retrieval Augmented Generation - 2022年10月

Diverse Parallel Data Synthesis for Cross-Database Adaptation of Text-to-SQL Parsers

发布时间：2022-10-29

作者：Abhijeet Awasthi, Ashutosh Sathe, Sunita Sarawagi

中文摘要：

文本到SQL解析器通常难以处理训练过程中未见过的数据库。由于新数据库中缺乏自然语言查询，将解析器适应新数据库是一个具有挑战性的问题。我们提出了ReFill，这是一个用于合成高质量和文本多样化的并行数据集的框架，以适应目标模式下的文本到SQL解析器。ReFill学习从现有模式中检索和编辑文本查询，并将它们转移到目标模式。我们表明，检索多样化的现有文本，掩盖其模式特定的标记，并用与目标模式相关的标记进行填充，比标准SQL到文本生成方法所能实现的文本查询多样化程度要高得多。通过跨越多个数据库的实验，我们证明了在ReFill合成的数据集上微调解析器始终优于先前数据增强方法。

一句话总结：

ReFill通过合成多样化的并行数据集，显著提升了文本到SQL解析器适应新数据库的能力。

Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models

发布时间：2022-10-28

作者：Xiaoman Pan, Wenlin Yao, Hongming Zhang, Dian Yu, Dong Yu, Jianshu Chen

中文摘要：

本文提出了一种新型的半参数语言模型架构，称为知识-上下文（KiC），它通过一个知识丰富的外部记忆库来增强参数化的文本到文本语言模型。外部记忆库包含六种不同类型的知识：实体、词典、常识、事件、脚本和因果关系知识。对于每个输入实例，KiC模型自适应地选择一种知识类型并检索最有帮助的知识片段。输入实例及其知识增强被输入到一个文本到文本模型（如T5）中，以生成输出答案，其中输入和输出都在自然语言形式下。有趣的是，我们发现KiC可以被识别为一种特殊的专家混合（MoE）模型，其中知识选择器扮演了路由器的角色，用于确定MoE中的序列到专家的分配。这一关键观察启发我们开发了一种新的算法来训练带有实例自适应知识选择器的KiC。作为一个知识丰富的半参数语言模型，KiC只需要一个更小的参数部分就能在未见过的任务上实现优越的零样本性能。通过在40多个不同任务上的评估，我们展示了具有770M参数的KiC_Large模型轻松地以很大的优势超过了4-39倍更大的大型语言模型（LMs）。我们还证明了与全参数模型相比，KiC在更小的模型规模上表现出涌现的能力。

一句话总结：

本文提出了一种基于知识增强的半参数语言模型KiC，通过外部知识库和自适应知识选择器，实现了在未见过的任务上优于大型语言模型的零样本性能。

Retrieval Augmentation for Commonsense Reasoning: A Unified Approach

发布时间：2022-10-23

作者：Wenhao Yu, Chenguang Zhu, Zhihan Zhang, Shuohang Wang, Zhuosheng Zhang, Yuwei Fang, Meng Jiang

中文摘要：

现有文献中检索增强方法的共同点在于检索百科知识，如维基百科，这有助于建立可建模的明确实体和关系空间。然而，将这些方法应用于常识推理任务面临两个独特的挑战，即缺乏用于检索的通用大规模语料库以及相应的有效常识检索器。在本文中，我们系统地研究了如何利用常识知识检索来提高常识推理任务。我们提出了一种统一的检索增强常识推理框架（称为RACo），包括一个包含超过2000万文档的新构建的常识语料库和训练常识检索器的创新策略。我们在四个不同的常识推理任务上进行了实验。广泛的评估结果表明，我们提出的RACo可以显著优于其他知识增强方法，在CommonGen和CREAK排行榜上实现了新的SoTA（State-of-the-Art）性能。

一句话总结：

本文提出了一种名为RACo的检索增强常识推理框架，通过构建大规模常识语料库和创新训练策略，显著提升了常识推理任务的性能。

Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine

发布时间：2022-10-23

作者：Fenglin Liu, Bang Yang, Chenyu You, Xian Wu, Shen Ge, Zhangdaihong Liu, Xu Sun, Yang Yang, David A. Clifton

中文摘要：

语言模型（LMs），包括大型语言模型（如ChatGPT），有潜力协助临床医生生成各种临床记录。然而，LMs容易产生“幻觉”，即与事实和知识不符的生成内容。在本文中，我们提出了Re$^3$Writer方法，该方法结合了检索增强的生成和基于知识的推理，以使LMs能够生成忠实于事实的临床文本。我们展示了我们方法在生成患者出院指导方面的有效性。这要求LMs不仅要理解患者的长期临床文档，即住院期间的病历，还要在出院时生成提供给护理人员和患者的关键指导信息。所提出的Re$^3$Writer模仿医生的工作模式，首先从医生撰写的既往指导中检索相关工作经验，然后推理相关的医学知识。最后，它对检索到的工作经验和推理出的医学知识进行细化，提取有用信息，用于为先前未见过的患者生成出院指导。我们的实验表明，使用我们的方法，五个代表性LMs的性能在所有指标上都有显著提升。同时，我们展示了来自人类评估的结果，以衡量流畅性、忠实性和全面性的有效性。

一句话总结：

Re$^3$Writer方法通过检索增强的生成和知识推理，显著提升了大型语言模型在生成忠实临床文本方面的性能。

ComFact: A Benchmark for Linking Contextual Commonsense Knowledge

发布时间：2022-10-23

作者：Silin Gao, Jena D. Hwang, Saya Kanno, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut

中文摘要：

理解丰富的叙事，如对话和故事，通常需要自然语言处理系统从常识知识图谱中获取相关知识。然而，这些系统通常使用简单的启发式方法从知识图谱中检索事实，这些方法忽略了识别情境相关常识知识的复杂挑战（例如，情境化、隐含性、歧义性）。在本工作中，我们提出了新的任务——常识事实链接，其中模型被给予上下文并训练以从知识图谱中识别情境相关的常识知识。我们的新基准ComFact包含约293k个情境相关性的标注，涵盖了四个风格多样的对话和讲故事数据集中的常识三元组。实验结果表明，启发式事实链接方法是不精确的知识提取器。学习到的事实链接模型在这些启发式方法上表现出全面性能提升（约34.6% F1）。此外，改进的知识检索为对话响应生成任务的平均下游改进达到了9.8%。然而，事实链接模型仍然显著低于人类表现，这表明我们的基准是研究自然语言处理系统常识增强的很有前景的测试平台。

一句话总结：

本研究提出了常识事实链接任务，通过构建新的基准ComFact，显著提升了自然语言处理系统在常识知识获取方面的性能。

Exploring Representation-Level Augmentation for Code Search

发布时间：2022-10-21

作者：Haochen Li, Chunyan Miao, Cyril Leung, Yanxian Huang, Yuan Huang, Hongyu Zhang, Yanlin Wang

中文摘要：

代码搜索，旨在为给定的自然语言查询检索最相关的代码片段，是软件开发实践中的常见活动。最近，对比学习在代码搜索研究中得到广泛应用，其中提出了许多针对源代码的数据增强方法（例如，语义保持的程序转换）以学习更好的表示。然而，这些增强是在原始数据级别进行的，这需要在预处理阶段进行额外的代码分析，并在训练阶段产生额外的训练成本。在本文中，我们探索了在表示级别增强数据（包括代码和查询）的方法，这种方法不需要额外的数据处理和训练，并基于此，我们提出了一种表示级别增强的通用格式，该格式统一了现有方法。然后，我们基于通用格式提出了三种新的增强方法（线性外推、二进制插值和高斯缩放）。此外，我们理论上分析了所提出的增强方法在代码搜索中相对于传统对比学习方法的优点。我们使用包含六种编程语言的大规模公开数据集对所提出的表示级别增强方法进行了实验评估，并与最先进的代码搜索模型进行了比较。实验结果表明，我们的方法可以持续提升所研究代码搜索模型的表现。我们的源代码可在https://github.com/Alex-HaochenLi/RACS上找到。

一句话总结：

本文提出了一种基于表示级别的代码搜索数据增强方法，通过线性外推、二进制插值和高斯缩放等新方法，有效提升了代码搜索模型的性能。

Learning and Retrieval from Prior Data for Skill-based Imitation Learning

发布时间：2022-10-20

作者：Soroush Nasiriany, Tian Gao, Ajay Mandlekar, Yuke Zhu

中文摘要：

模仿学习为机器人学习通用行为提供了一条有前景的途径，但由于对数据监督要求高和泛化脆弱，传统上其可扩展性有限。受最近多任务模仿学习进展的启发，我们研究了利用先前任务中的先验数据以鲁棒、数据高效的方式促进新任务学习的方法。为了有效利用先验数据，机器人必须内化过去的经验知识，并在新任务中使这些知识具体化。为此，我们开发了一个基于技能的模仿学习框架，该框架从先验数据中提取时间扩展的感知运动技能，随后学习一个针对目标任务的策略，该策略调用这些学习到的技能。我们确定了几个关键的设计选择，这些选择显著提高了新任务上的性能，包括用于实现更可预测的技能表示的学习目标表示学习目标和基于检索的数据增强机制，以增加策略训练的监督范围。在一系列模拟和现实世界的操作领域，我们证明了我们的方法在模仿学习和离线强化学习方法中表现显著优于现有方法。视频和代码可在https://ut-austin-rpl.github.io/sailor找到。

一句话总结：

本研究提出了一种基于技能的模仿学习框架，通过利用先验数据来提高机器人学习新任务的能力，显著优于现有的模仿学习和离线强化学习方法。

Guiding Data-Driven Design Ideation by Knowledge Distance

发布时间：2022-10-18

作者：Jianxi Luo, Serhad Sarica, Kristin Wood

中文摘要：

数据驱动的概念设计方法和工具旨在通过提供外部灵感刺激来激发人类的新设计概念。在先前的研究中，这些刺激在覆盖范围、粒度和检索指导方面都有限。在这里，我们提出一个基于知识的专家系统，该系统能够从所有工程和技术领域同时提供语义、文档和领域的多层级设计刺激，并遵循创造力理论，根据知识距离来指导刺激的检索和使用。该系统以专利分类系统中所有技术领域的网络为中心，根据技术领域之间的统计估计知识距离，在总专利数据库中存储和组织全球累积的技术知识、概念和解决方案数据。反过来，知识距离指导基于网络的探索和检索灵感刺激，通过类比和组合在近场和远场之间进行推理，从而生成新的设计想法。通过两个案例研究，我们展示了使用该系统探索和检索多层级灵感刺激，以及为问题解决和开放式创新生成新设计想法的有效性。这些案例研究还展示了计算机辅助的构思过程，该过程是数据驱动的、计算增强的、理论基础的、视觉启发的，并且是快速的。

一句话总结：

该论文提出了一种基于知识的专家系统，通过多层级灵感刺激的检索和利用，有效支持数据驱动的创新设计构思过程。

发布时间：2022-10-15

作者：Shangbin Feng, Zhaoxuan Tan, Zilong Chen, Ningnan Wang, Peisheng Yu, Qinghua Zheng, Xiaojun Chang, Minnan Luo

中文摘要：

在计算政治科学中，建模政治行为者的意识形态观点是一项基本任务，它在许多下游任务中都有应用。现有的方法通常局限于文本数据和投票记录，而忽视了全面意识形态分析所需丰富的社会背景和宝贵的专家知识。在本文中，我们提出了PAR（政治行为者表示学习框架），它联合利用社会背景和专家知识。具体来说，我们检索并提取有关立法者的陈述以利用社会背景信息。然后，我们构建一个异构信息网络来整合社会背景，并使用关系图神经网络来学习立法者的表示。最后，我们通过三个目标来训练PAR，以使表示学习与专家知识对齐、建模意识形态立场一致性以及模拟回声室现象。广泛的实验表明，PAR在增强政治文本理解方面表现更佳，并在政治观点检测和点名投票预测方面成功推进了当前的最佳水平。进一步的分析证明，PAR学习到的表示反映了政治现实，并为政治行为提供了新的见解。

一句话总结：

本文提出的PAR框架通过结合社会背景和专家知识，有效提升了政治文本理解和意识形态分析的能力。

Improving Retrieval Augmented Neural Machine Translation by Controlling Source and Fuzzy-Match Interactions

发布时间：2022-10-10

作者：Cuong Hoang, Devendra Sachan, Prashant Mathur, Brian Thompson, Marcello Federico

中文摘要：

我们探讨了零样本自适应方法，即在推理时，通用领域模型可以访问客户或特定领域的并行数据，但在训练期间则不行。我们基于检索增强翻译（RAT）的概念，为源句子找到领域内的top-k模糊匹配，并在推理时将这些模糊匹配句子的目标语言翻译提供给翻译模型。我们提出了一种新颖的架构来控制源句子与top-k模糊目标语言匹配之间的交互，并将其与先前工作的架构进行了比较。我们在两个语言对（英-德和英-法）上进行了实验，分别使用WMT数据训练模型，并使用五个和七个多领域数据集进行测试。我们的方法在语言对、领域和模糊匹配数量k上的一致性优于替代架构，提高了BLEU分数。

一句话总结：

本研究提出了一种基于检索增强翻译的零样本自适应翻译架构，显著提升了跨语言对、领域和模糊匹配数量的翻译质量。

CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation

发布时间：2022-10-10

作者：Tanay Dixit, Bhargavi Paranjape, Hannaneh Hajishirzi, Luke Zettlemoyer

中文摘要：

反事实数据增强（CDA）——即在训练过程中添加最小程度扰动的输入——有助于减少模型对虚假相关性的依赖，并提高对分布外（OOD）数据的泛化能力。先前关于生成反事实的研究仅考虑了受限类别的扰动，限制了其有效性。我们提出了COunterfactual Generation via Retrieval and Editing（CORE），这是一个检索增强的生成框架，用于为CDA创建多样化的反事实扰动。对于每个训练示例，CORE首先使用学习到的双编码器在任务相关的未标记文本语料库上执行密集检索，并提取相关的反事实摘录。然后，CORE将这些摘录纳入对具有少量学习能力的语言模型的提示中，以进行反事实编辑。将语言模型编辑条件化在自然发生的数据上，导致多样化的扰动。在自然语言推理和情感分析基准上的实验表明，与其它数据增强方法相比，CORE的反事实在提高对OOD数据的泛化能力方面更为有效。我们还展示了如何使用CORE检索框架来鼓励手动编写的扰动多样性。

一句话总结：

CORE通过检索和编辑生成多样化的反事实扰动，有效提高了模型对分布外数据的泛化能力。

MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text

发布时间：2022-10-06

作者：Wenhu Chen, Hexiang Hu, Xi Chen, Pat Verga, William W. Cohen

中文摘要：

尽管语言模型在其参数中隐式地存储了大量的世界知识，但即使是很大的模型也常常无法编码关于罕见实体和事件的信息，同时需要巨大的计算成本。最近，检索增强模型，如REALM、RAG和RETRO，通过利用外部非参数索引将世界知识纳入语言生成，并在受限制的模型尺寸下展示了令人印象深刻的性能。然而，这些方法仅限于检索文本知识，忽略了图像等其他模态中普遍存在的知识量——其中大部分信息是任何文本所无法涵盖的。为了解决这一局限性，我们提出了第一个多模态检索增强Transformer（MuRAG），它通过访问外部非参数多模态记忆来增强语言生成。MuRAG使用大规模图像-文本和纯文本语料库的混合体进行预训练，使用联合对比和生成损失。我们在两个不同的数据集上进行了实验，这些数据集需要检索和推理图像和文本以回答给定查询：WebQA和MultimodalQA。我们的结果表明，MuRAG在两个数据集上均达到了最先进的准确率，在受干扰和完整维基百科设置下，相对于现有模型，绝对准确率提高了10-20%。

一句话总结：

MuRAG通过结合图像和文本信息，实现了在多模态检索增强Transformer中的语言生成，显著提高了问答系统的准确率。

Improving the Domain Adaptation of Retrieval Augmented Generation (RAG) Models for Open Domain Question Answering

发布时间：2022-10-06

作者：Shamane Siriwardhana, Rivindu Weerasekera, Elliott Wen, Tharindu Kaluarachchi, Rajib Rana, Suranga Nanayakkara

中文摘要：

检索增强生成（RAG）是开放域问答（ODQA）领域的一项最新进展。RAG目前仅使用基于维基百科的外部知识库进行训练和探索，并未针对其他专业领域（如医疗保健和新闻）进行优化。在本文中，我们评估了RAG检索器和生成器组件联合训练对ODQA领域自适应任务的影响。我们提出了RAG-end2end，这是RAG的一个扩展，它可以通过在训练过程中更新外部知识库的所有组件来适应特定领域的知识库。此外，我们引入了一个辅助训练信号，以注入更多特定领域的知识。这个辅助信号迫使RAG-end2end通过访问外部知识库中的相关信息来重建给定的句子。我们的创新贡献不同于RAG，RAG-end2end对端到端问答任务和领域自适应进行了检索器和生成器的联合训练。我们使用来自三个领域（COVID-19、新闻和对话）的数据集评估了我们的方法，与原始RAG模型相比，实现了显著的性能提升。我们的工作已通过Huggingface Transformers库开源，这证实了我们的工作的可信度和技术一致性。（RAG-end2end：一种针对特定领域知识库的自适应RAG模型，通过联合训练检索器和生成器实现领域自适应和问答性能提升。）

一句话总结：

RAG-end2end通过联合训练检索器和生成器，实现针对特定领域知识库的自适应，显著提升了开放域问答的性能。

Recitation-Augmented Language Models

发布时间：2022-10-04

作者：Zhiqing Sun, Xuezhi Wang, Yi Tay, Yiming Yang, Denny Zhou

中文摘要：

我们提出了一种新的范式，帮助大型语言模型（LLMs）在不从外部语料库检索的情况下生成更准确的事实知识，称为RECITation-augmented gEneration（RECITE）。与在生成输出之前检索相关文档的检索增强语言模型不同，给定一个输入，RECITE首先通过采样从LLMs自身的记忆中复述一个或多个相关段落，然后生成最终答案。我们表明，RECITE是知识密集型NLP任务的一个强大范式。具体来说，我们表明通过利用复述作为中间步骤，复述-回答方案可以在各种闭卷问答（CBQA）任务中实现新的最先进性能。在实验中，我们验证了该方法在四个预训练模型（PaLM、UL2、OPT和Codex）以及三个CBQA任务（Natural Questions、TriviaQA和HotpotQA）上的有效性。我们的代码可在"https://github.com/Edward-Sun/RECITE"获取。

一句话总结：

RECITE通过从LLMs内部记忆中复述相关段落，为大型语言模型生成更准确的事实知识提供了一种新的、有效的增强方法。

Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple Tasks

发布时间：2022-10-01

作者：Zhenhailong Wang, Xiaoman Pan, Dian Yu, Dong Yu, Jianshu Chen, Heng Ji

中文摘要：

尽管大型语言模型在零样本能力方面取得了令人印象深刻的成果，但巨大的模型规模通常会导致高昂的成本。最近，半参数语言模型通过结合外部检索器来增强较小的语言模型，已经展示了有前景的语言建模能力。然而，目前尚不清楚这种半参数语言模型是否能够在零样本泛化到下游任务方面与全参数模型相竞争。在本工作中，我们引入了$\text{Zemi}$，这是一种零样本半参数语言模型。据我们所知，这是第一个能够在广泛保留未见任务上展示强大零样本性能的半参数语言模型。我们使用一种新颖的半参数多任务提示训练范式来训练$\text{Zemi}$，与T0提出的参数化多任务训练相比，它显示出显著的改进。具体来说，我们通过从大规模任务无关的无标签语料库中进行检索来增强多任务训练和零样本评估。为了结合多个可能存在噪声的检索增强，我们进一步提出了一种新颖的$\text{增强融合}$模块，该模块利用感知器重采样器和门控交叉注意力。值得注意的是，我们提出的$\text{Zemi}_\text{LARGE}$在所有七个评估任务上的性能优于T0-3B，同时模型大小缩小了3.9倍。

一句话总结：

$\text{Zemi}$是一种创新的零样本半参数语言模型，通过结合外部检索和增强融合模块，在多个任务上实现了优于全参数模型的性能，同时大幅减少了模型大小。