Retrieval Augmented Generation - 2023年07月

发布时间：2023-07-28

作者：Yifei Xin, Yuexian Zou

中文摘要：

本文提出了一种用于音频-文本检索（ATR）的分层跨模态交互（HCI）方法，该方法同时探索剪辑-句子、片段-短语和帧-词之间的关系，实现了全面的跨模态语义比较。此外，我们还提出了一种新的ATR框架，该框架利用由预训练的标题生成器生成的辅助标题（AC）来执行音频与生成标题之间的特征交互，从而增强了音频表示，并补充了原始的ATR匹配分支。音频和生成的标题还可以形成新的音频-文本对，作为训练的数据增强。实验表明，我们的HCI显著提高了ATR性能。此外，我们的AC框架在多个数据集上也显示出稳定的性能提升。

一句话总结：

本文提出了一种基于分层跨模态交互的音频-文本检索方法，通过同时探索不同粒度的跨模态关系，显著提升了检索性能。

Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation

发布时间：2023-07-27

作者：Zhiyuan Li, Dongnan Liu, Heng Wang, Chaoyi Zhang, Weidong Cai

中文摘要：

近年来，训练图像描述生成器而不需要标注的图像-句子对已成为研究热点。先前的方法可以分为两种策略：从错配语料库中爬取句子并与给定的图像对齐作为伪标注，或者使用外部图像-文本对进行预训练。然而，由于对齐设置中成对的质量问题，其性能似乎已达到极限，而预训练需要大量的计算资源。为了解决这些挑战，我们提出了一种新的策略“LPM +检索增强学习”，其中利用大型预训练模型（LPMs）的先验知识作为监督，并集成检索过程以进一步增强其有效性。具体来说，我们引入了检索增强伪句子生成（RaPSG），它采用一种高效的方法从错配语料库中检索高度相关的短区域描述，并使用它们通过LPMs生成具有不同表示以及高质量的各种伪句子。此外，还引入了流畅度过滤器和CLIP引导的训练目标，以促进模型优化。实验结果表明，我们的方法在仅使用其可训练参数的0.3%（1.3B VS 33M）的情况下，实现了78.1的CIDEr分数（+5.1），超过了SOTA预训练模型（Flamingo3B）。重要的是，我们的方法消除了在外部数据集（例如，Flamingo3B对312M图像-文本对的需求）上进行计算密集型预训练过程的需要。我们进一步表明，通过简单的扩展，生成的伪句子可以作为弱监督部署，将1%半监督图像描述基准提升至93.4的CIDEr分数（+8.9），这展示了我们方法的多功能性及其有效性。

一句话总结：

提出了一种基于大型预训练模型和检索增强学习的图像描述生成方法，显著提升了性能并降低了计算成本。

RRAML: Reinforced Retrieval Augmented Machine Learning

发布时间：2023-07-24

作者：Andrea Bacciu, Florin Cuconasu, Federico Siciliano, Fabrizio Silvestri, Nicola Tonellotto, Giovanni Trappolini

中文摘要：

大型语言模型（LLMs）的出现彻底改变了机器学习和相关领域，展示了其在理解、生成和操纵人类语言方面的非凡能力。然而，通过基于API的文本提示提交的传统使用方式，在上下文约束和外部资源可用性方面存在一定的局限性。为了解决这些挑战，我们提出了一种名为强化检索增强机器学习（RRAML）的新框架。RRAML将LLMs的推理能力与专门检索器从庞大的用户提供的数据库中检索到的支持信息相结合。通过利用强化学习的最新进展，我们的方法有效地解决了几个关键挑战。首先，它绕过了访问LLM梯度的需求。其次，我们的方法减轻了针对特定任务重新训练LLMs的负担，因为由于对模型访问的限制以及涉及的计算强度，这通常是不切实际或不可能的。此外，我们无缝地将检索器的任务与推理器联系起来，减轻了幻觉并减少了无关的、可能有害的检索文档。我们相信，本文概述的研究议程有可能对人工智能领域产生深远影响，使各种实体能够民主化地访问和使用LLMs。

一句话总结：

RRAML通过结合LLMs的推理能力和外部检索信息，有效解决了大型语言模型在上下文约束和外部资源可用性方面的局限性。

Soft Prompt Tuning for Augmenting Dense Retrieval with Large Language Models

发布时间：2023-07-17

作者：Zhiyuan Peng, Xuyang Wu, Qifan Wang, Yi Fang

中文摘要：

密集检索（DR）将查询和文档转换为密集嵌入，并在向量空间中测量查询和文档之间的相似度。DR中的一个挑战是缺乏特定领域的训练数据。虽然DR模型可以通过迁移学习从大规模公共数据集（如MS MARCO）中学习，但证据表明，并非所有DR模型和领域都能从迁移学习中平等受益。最近，一些研究人员求助于大型语言模型（LLMs）来改进零样本和少样本DR模型。然而，在这些工作中使用的硬提示或人工编写的提示无法保证生成弱查询的质量。为了解决这个问题，我们提出了用于增强DR的软提示调整（SPTAR）：对于每个任务，我们利用软提示调整在有限的地面真实数据上优化特定于任务的软提示，然后提示LLMs使用弱查询对未标记的文档进行标记，从而产生足够的弱文档-查询对以训练特定于任务的密集检索器。我们设计了一个过滤器，用于在提示中选择高质量的示例文档-查询对，以进一步提高弱标记查询的质量。据我们所知，目前没有利用软提示调整来增强DR模型的前期工作。实验表明，SPTAR优于无监督基线BM25以及最近提出的基于LLMs的DR增强方法。

一句话总结：

SPTAR通过软提示调整和LLMs，有效提升了密集检索模型在特定任务上的性能。

Prompt Tuning on Graph-augmented Low-resource Text Classification

发布时间：2023-07-15

作者：Zhihao Wen, Yuan Fang

中文摘要：

文本分类是信息检索中的一个基本问题，具有许多实际应用，例如预测在线文章的主题和电子商务产品描述的类别。然而，低资源文本分类（没有或仅有少量标记样本）对监督学习构成了严重挑战。同时，许多文本数据本质上基于网络结构，例如在线文章的超链接/引用网络，以及电子商务产品的用户-物品购买网络。这些图结构捕捉了丰富的语义关系，这可以潜在地增强低资源文本分类。在本文中，我们提出了一种名为图 grounded 预训练和提示（Graph-Grounded Pre-training and Prompting，G2P2）的新模型，以双管齐下的方式解决低资源文本分类问题。在预训练阶段，我们提出了三种基于图交互的对比策略，以联合预训练图-文本模型；在下游分类阶段，我们探索了为联合预训练模型设计的手工离散提示和连续提示调整，以实现零样本和少样本分类。此外，我们探讨了使用连续提示调整进行零样本推理的可能性。具体来说，我们旨在将连续提示推广到未见过的类别，同时利用一组基础类别。为此，我们将 G2P2 扩展为 G2P2，依赖于条件提示调整的新架构。在四个真实世界数据集上的大量实验表明，G2P2 在零样本和少样本低资源文本分类任务中表现出强大的能力，并说明了 G2P2 在处理未见类别时的优势。

一句话总结：

本文提出的 G2P2 模型通过结合图结构和预训练提示技术，有效提升了低资源文本分类的性能。

Retrieval Augmented Generation using Engineering Design Knowledge

发布时间：2023-07-13

作者：L. Siddharth, Jianxi Luo

中文摘要：

为了支持检索增强生成（RAG）在设计过程中的应用，本文提出了一种从专利工件描述中识别显式、工程设计事实（{头实体 :: 关系 :: 尾实体}）的方法。给定一个带有成对实体（基于名词短语）并以独特方式标记的句子，我们的方法能够提取句子中明确传达的关系。为此任务，我们创建了一个包含375,084个示例的数据集，并针对关系识别（标记分类）和提取（序列到序列）对语言模型进行了微调。标记分类方法达到了高达99.7%的准确率。将该方法应用于4,870个风扇系统专利的领域后，我们构建了一个包含超过2.93百万个事实的知识库。利用这个知识库，我们展示了大型语言模型（LLMs）如何通过显式事实引导合成知识和在设计过程中的知识检索任务中生成技术和连贯的响应。

一句话总结：

本文提出了一种从专利描述中提取工程设计事实的方法，以支持检索增强生成，并展示了如何利用这些事实引导大型语言模型生成技术响应。

Prompt Generate Train (PGT): Few-shot Domain Adaption of Retrieval Augmented Generation Models for Open Book Question-Answering

发布时间：2023-07-12

作者：C. S. Krishna

中文摘要：

我们提出了一种名为“提示、生成、训练”（Prompt, Generate, Train，简称PGT）的框架，用于高效地开发一个针对特定文本文档集合的开卷问答生成模型。该框架通过监督微调和在少量样本设置下的合成反馈强化学习，将检索增强生成（RAG）模型适配到目标领域。我们假设这将产生一个对齐的、不确定性校准的模型，在生成相关答案时，其成本低于基于GPT-4的上下文检索增强生成，且具有竞争力。框架的合成生成管道将使用开源LLM和一种新颖的一致性过滤方案生成包含<段落，问题，答案>元组的合成训练数据。该管道旨在生成涵盖整个语料库的抽象和提取性问题。框架建议在合成数据集上微调一个包含密集检索器（ColBERTv2）和较小尺寸的LLM的小型RAG模型。同时，框架将训练一个奖励模型，通过合成样本的先验相关性排序，对基于领域答案进行评分，使其高于虚构答案。在下一阶段，框架将使用近端策略优化（Proximal Policy Optimization）强化学习将RAG模型与目标领域对齐。这一步骤可能提高RAG模型生成基于领域答案和忽略领域外问题的能力。在最终阶段，框架将对提取性问题-答案的模型不确定性进行校准。

一句话总结：

该PGT框架通过结合监督微调、强化学习和合成数据生成，开发了一种高效的开卷问答生成模型，旨在降低服务成本并提高答案的相关性。

Retrieval-augmented GPT-3.5-based Text-to-SQL Framework with Sample-aware Prompting and Dynamic Revision Chain

发布时间：2023-07-11

作者：Chunxi Guo, Zhiliang Tian, Jintao Tang, Shasha Li, Zhihua Wen, Kaixuan Wang, Ting Wang

中文摘要：

本文提出了一种基于大型语言模型（LLMs）的文本到SQL框架的检索增强提示方法，该方法包括样本感知提示和动态修订链。该方法通过包含SQL操作符的组成和与给定问题相关的细粒度信息在内的样本感知演示，来帮助LLMs理解输入问题并生成相应的SQL查询。为了检索与输入问题具有相似意图的问题，我们提出了两种辅助检索的策略。首先，我们利用LLMs简化原始问题，统一语法，从而阐明用户的意图。为了在没有人工干预的情况下生成可执行且准确的SQL查询，我们设计了一个动态修订链，该链通过迭代适应先前生成的SQL的细粒度反馈。在三个文本到SQL基准测试上的实验结果表明，我们的方法在强基线模型之上具有优越性。

一句话总结：

本文提出了一种基于检索增强的提示方法，通过样本感知演示和动态修订链，显著提升了基于LLMs的文本到SQL框架的性能。

TRAQ: Trustworthy Retrieval Augmented Question Answering via Conformal Prediction

发布时间：2023-07-07

作者：Shuo Li, Sangdon Park, Insup Lee, Osbert Bastani

中文摘要：

当应用于开放域问答时，大型语言模型（LLMs）经常基于虚构的事实生成错误响应，这些错误被称为幻觉。检索增强生成（RAG）是一种避免幻觉的有希望策略，但它并不能保证其正确性。为了应对这一挑战，我们提出了可信赖的检索增强问答（Trustworthy Retrieval Augmented Question Answering，简称TRAQ），它为RAG提供了第一个端到端的统计正确性保证。TRAQ使用符合性预测（conformal prediction），这是一种构建预测集的统计技术，这些预测集以高概率包含语义正确的响应。此外，TRAQ利用贝叶斯优化来最小化构建集的大小。在广泛的实验评估中，我们证明了TRAQ提供了所需的正确性保证，同时与消融实验相比，平均减少了16.2%的预测集大小。该实现可在TRAQ找到。

一句话总结：

TRAQ通过结合符合性预测和贝叶斯优化，为检索增强生成问答系统提供了端到端的统计正确性保证，同时有效减小了预测集的大小。

External Reasoning: Towards Multi-Large-Language-Models Interchangeable Assistance with Human Feedback

发布时间：2023-07-05

作者：Akide Liu

中文摘要：

记忆被识别为人类的一项关键能力，它允许在脑中的海马体和神经元中保留视觉和语言信息，这些信息随后可以被检索以应对终身学习过程中出现的现实世界挑战。通过应用获得的知识来解决复杂的人工智能任务，代表了实现人工通用智能的步骤。然而，尽管像GPT-3.5和GPT-4这样的大型语言模型（LLMs）普遍存在，并且它们在语言理解、生成、交互和推理方面表现出惊人的能力，但它们受到上下文长度限制的阻碍，这阻止了处理广泛且持续演变的知识库。本文提出，通过选择性地整合外部存储库中的知识，可以增强LLMs，并且在此过程中，引入了一种新的外部推理方法，以ChatPDF为例。这种方法的核心是在图\cref{fig:overall}中建立基于多个LLM交互辅助的分层策略，根据查询的复杂性，在入门级、中级和高级层次上调整所提供支持的水平，并根据人类反馈进行调整。使用多个LLMs对这种方法进行了全面评估，结果表明在\cref{comparison}中达到了最先进的性能，超越了包括ChatPDF.com在内的现有解决方案。此外，本文强调，与LLMs直接处理全文相比，这种方法更加高效。源代码在以下网址公开可用：\url{https://github.com/AkideLiu/ANLP}。

一句话总结：

本文提出了一种通过外部知识库增强大型语言模型的方法，以实现更高效的外部推理。

发布时间：2023-07-05

作者：Ana-Maria Bucur

中文摘要：

在这项工作中，我们展示了BLUE团队在eRisk Lab任务中寻找抑郁症症状的贡献。该任务包括从BDI-II问卷中检索和排名Reddit社交媒体句子，这些句子传达了抑郁症的症状。鉴于由大型语言模型（LLM）提供的合成数据已被证明是增强数据和微调下游模型的一种可靠方法，我们选择使用ChatGPT为BDI-II问卷中的每个症状生成合成数据。我们设计了一个提示，使得生成数据比每个问题的BDI-II回答具有更多的丰富性和语义多样性，同时包含Reddit上更亲密的分享经验特有的情感和轶事经历。我们通过余弦相似度对句子与BDI-II症状的相关性进行语义搜索和排名。我们使用了两种最先进的基于transformer的模型（MentalRoBERTa和MPNet的一个变体）来嵌入社交媒体帖子以及BDI-II的原回答和生成回答。我们的结果表明，使用为语义搜索设计的模型生成的句子嵌入优于使用在心理健康数据上预训练的模型生成的嵌入。此外，生成的合成数据被证明对于这项任务过于特定，仅依赖于BDI-II回答的方法表现最佳。

一句话总结：

本研究通过使用ChatGPT生成合成数据并采用先进的transformer模型进行语义搜索，提高了从Reddit社交媒体中检索抑郁症症状句子的准确性。