Retrieval Augmented Generation - 2023年08月

Continual Learning for Generative Retrieval over Dynamic Corpora

发布时间：2023-08-29

作者：Jiangui Chen, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Wei Chen, Yixing Fan, Xueqi Cheng

中文摘要：

生成式检索（GR）直接根据参数模型预测相关文档的标识符（即docids）。它已在许多临时检索任务中取得了稳定的性能。到目前为止，这些任务都假设文档集合是静态的。然而，在许多实际场景中，文档集合是动态的，其中新文档会持续添加到语料库中。在保留使用先前和最新索引的相关文档回答查询的能力的同时，增量索引新文档的能力对于应用GR模型至关重要。在本文中，我们针对GR的这种实际持续学习问题进行了研究。我们提出了一种新的持续学习器用于生成式检索（CLEVER）模型，并为GR的持续学习做出了两项主要贡献：（i）为了以低计算成本将新文档编码为docids，我们提出了增量产品量化，该量化根据两个自适应阈值更新部分量化码本；（ii）为了在查询新文档时不忘记先前知识，我们提出了一种记忆增强学习机制，以在旧文档和新文档之间形成有意义的连接。实证结果表明，所提出的模型具有有效性和效率。

一句话总结：

本文提出了一种名为CLEVER的持续学习模型，用于生成式检索，通过增量产品量化和记忆增强学习机制，实现了对新文档的增量索引和对旧知识的保留。

Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question Answering

发布时间：2023-08-25

作者：Keheng Wang, Feiyu Duan, Sirui Wang, Peiguang Li, Yunsen Xian, Chuantao Yin, Wenge Rong, Zhang Xiong

中文摘要：

本文提出了一种名为知识驱动思维链（Knowledge-Driven Chain-of-Thought，KD-CoT）的框架，旨在通过外部知识的交互来验证和修改大型语言模型（LLMs）在思维链（Chain-of-Thought，CoT）中的推理过程，以克服LLMs在处理知识密集型任务（如知识图谱问答，KBQA）时出现的幻觉和错误传播问题。具体来说，我们将LLMs的CoT推理过程转化为一种结构化的多轮问答格式。在每一轮中，LLMs与一个能够检索外部知识的问答系统交互，并基于检索到的精确答案生成可靠的推理轨迹。我们开发的KBQA CoT收集器不仅作为情境学习示例，还可以作为反馈增强来训练一个鲁棒的检索器。在WebQSP和ComplexWebQuestion数据集上的大量实验表明，所提出的KD-CoT在任务解决推理生成方面的有效性，其绝对成功率比原始CoT ICL高8.0%和5.1%。此外，我们提出的反馈增强检索器在检索知识方面优于现有基线，显著提高了命中率和召回率。我们的代码和数据已发布在https://github.com/AdelWang/KD-CoT/tree/main。

一句话总结：

本文提出了一种基于知识驱动的思维链框架，通过外部知识交互改进大型语言模型的推理过程，有效提升了其在知识密集型任务中的推理准确性和知识检索性能。

Reranking Passages with Coarse-to-Fine Neural Retriever Enhanced by List-Context Information

发布时间：2023-08-23

作者：Hongyin Zhu

中文摘要：

段落重排序是各种应用中的关键任务，尤其是在处理大量文档时。现有的神经网络架构在检索给定问题的最相关段落方面存在局限性，因为分割段落的语义通常是不完整的，并且它们通常将问题与每个段落单独匹配，很少考虑来自其他段落的上下文信息，这些信息可能提供比较和参考信息。本文提出了一种列表上下文注意力机制，通过结合来自其他候选者的列表上下文信息来增强段落表示。所提出的粗到细（C2F）神经网络检索器通过将列表上下文建模过程分为两个子过程并使用缓存策略学习算法来解决段落注意力机制的内存不足限制，从而能够高效地编码来自大量候选答案的上下文信息。这种方法可以一般地用于在一次遍历中编码来自任何数量候选答案的上下文信息。与大多数多阶段信息检索架构不同，该模型将粗粒度和细粒度排序器集成到联合优化过程中，允许两个层之间进行反馈以同时更新模型。实验证明了所提出方法的有效性。

一句话总结：

本文提出了一种基于列表上下文注意力机制的段落重排序方法，通过联合优化粗细粒度排序器，有效提高了检索效率。

RaLLe: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models

发布时间：2023-08-21

作者：Yasuto Hoshi, Daisuke Miyashita, Youyang Ng, Kento Tatsuno, Yasuhiro Morioka, Osamu Torii, Jun Deguchi

中文摘要：

检索增强的大型语言模型（R-LLMs）结合了预训练的大型语言模型（LLMs）和信息检索系统，以提高事实性问答的准确性。然而，目前用于构建R-LLMs的库提供了高级抽象，但在评估和优化特定推理过程（如检索和生成）中的提示方面缺乏足够的透明度。为了解决这一差距，我们提出了RaLLe，这是一个开源框架，旨在促进R-LLMs在知识密集型任务中的开发、评估和优化。使用RaLLe，开发者可以轻松地开发和评估R-LLMs，改进手工提示，评估单个推理过程，并客观地定量测量整体系统性能。通过利用这些功能，开发者可以增强他们在知识密集型生成任务中R-LLMs的性能和准确性。我们已在https://github.com/yhoshi3/RaLLe上开源我们的代码。

一句话总结：

RaLLe是一个开源框架，旨在通过提供透明度和工具来促进检索增强的大型语言模型（R-LLMs）在知识密集型任务中的开发、评估和优化。

An Empirical Study of CLIP for Text-based Person Search

发布时间：2023-08-19

作者：Min Cao, Yang Bai, Ziyin Zeng, Mang Ye, Min Zhang

中文摘要：

文本基于的人脸搜索（TBPS）旨在使用自然语言描述检索人脸图像。近期，对比语言图像预训练（CLIP）作为一种通用的跨模态视觉-语言预训练模型，因其强大的跨模态语义学习能力，在多种跨模态下游任务中表现出色。作为细粒度跨模态检索任务，TPBS也面临着基于CLIP的TBPS研究的兴起。为了探索视觉-语言预训练模型在下游TBPS任务中的潜力，本文首次对CLIP在TBPS中的应用进行了全面的实证研究，从而为TBPS社区贡献了一个简单、渐进且强大的TBPS-CLIP基准。我们重新审视了在CLIP下的关键设计考虑因素，包括数据增强和损失函数。该模型通过上述设计和实际训练技巧，能够在不使用任何复杂模块的情况下达到令人满意的表现。此外，我们还进行了TBPS-CLIP在模型泛化和模型压缩方面的探针实验，从多个方面证明了TBPS-CLIP的有效性。这项工作有望提供实证见解并突出基于CLIP的TBPS研究的未来方向。

一句话总结：

本文对CLIP在文本基于的人脸搜索（TBPS）中的应用进行了实证研究，为TBPS社区提供了一个简单有效的基准模型。

Differentiable Retrieval Augmentation via Generative Language Modeling for E-commerce Query Intent Classification

发布时间：2023-08-18

作者：Chenyu Zhao, Yunjiang Jiang, Yiming Qiu, Han Zhang, Wen-Yun Yang

中文摘要：

检索增强，通过知识检索器和外部语料库增强下游模型，而不是仅仅增加模型参数的数量，已成功应用于许多自然语言处理（NLP）任务，如文本分类、问答等。然而，由于检索器和下游模型之间的不可微分性，现有方法通常分别或异步训练检索器和下游模型，这通常会导致与端到端联合训练相比性能下降。在本文中，我们提出了通过生成语言建模（Generative lANguage modeling, GAN）的可微分检索增强（Differentiable Retrieval Augmentation via Generative lANguage modeling, Dragan），通过一种新颖的可微分重述来解决这一问题。我们展示了我们提出的方法在电子商务搜索中的一项具有挑战性的NLP任务——查询意图分类上的有效性。实验结果和消融研究表明，该方法在离线评估和在线A/B测试中均显著且合理地提高了最先进的基线。

一句话总结：

本文提出的Dragan方法通过可微分重述解决了检索增强中的性能下降问题，显著提升了电子商务搜索中的查询意图分类任务。

Encode-Store-Retrieve: Enhancing Memory Augmentation through Language-Encoded Egocentric Perception

发布时间：2023-08-10

作者：Junxiao Shen, John Dudley, Per Ola Kristensson

中文摘要：

我们依赖自己的记忆来编码、存储和检索我们的经历。然而，记忆失误可能会发生。实现记忆增强的一个有希望的途径是通过使用增强现实头戴式显示器来捕捉和保存以自我为中心的视频，这一做法通常被称为生活记录。然而，由于生活记录产生的视频数据量巨大，当前技术缺乏高效编码和存储这些大量数据的能力，这带来了巨大的挑战。此外，从大量的视频档案中检索特定信息需要大量的计算能力，这进一步复杂化了快速访问所需内容的任务。为了解决这些挑战，我们提出了一种记忆增强系统，该系统利用自然语言编码来处理视频数据并将它们存储在向量数据库中。这种方法利用了大型视觉语言模型来执行语言编码过程。此外，我们还提出使用大型语言模型来促进自然语言查询。我们的系统使用QA-Ego4D数据集进行了广泛的评估，并取得了最先进的成果，BLEU得分为8.3，超过了得分为3.4至5.8的传统机器学习模型。此外，在用户研究中，我们的系统在现实生活中的情景记忆任务上获得了4.13/5的更高平均响应评分，而人类参与者的评分为2.46/5。

一句话总结：

该研究提出了一种基于自然语言处理和大型语言模型的记忆增强系统，通过视频数据编码和查询优化，实现了高效的视频信息检索和记忆辅助。

Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval

发布时间：2023-08-09

作者：Tim Hartill, Diana Benavides-Prado, Michael Witbrock, Patricia J. Riddle

中文摘要：

当提供足够的解释背景时，较小的语言模型在处理未见过的训练数据中的挑战性短答案问答任务时，表现出强大的推理能力。本文评估了两种在此设置中进一步提高性能的方法。这两种方法都集中在将大语言模型生成的推理与从多跳密集检索系统中创建的较长上下文相结合。第一种方法（$\textit{RR}$）涉及训练一个推理排序模型来对生成的推理和检索到的上下文进行相关性和真实性评分。然后，我们使用这些评分通过多种组合策略从两个知识源中推导出综合上下文。对于第二种方法（$\textit{RATD}$），我们利用Hartill等人于2023年开发的检索增强训练数据集来训练一个较小的推理模型，使其能够熟练地利用可能只有部分证据且经常包含许多无关句子的较长的文本序列中的相关信息。我们发现这两种方法都显著提高了结果。我们的最佳推理模型在未见过的评估数据集（StrategyQA 58.9 $\rightarrow$ 61.7 acc.，CommonsenseQA 63.6 $\rightarrow$ 72.7 acc.，ARC-DA 31.6 $\rightarrow$ 52.1 F1，IIRC 25.5 $\rightarrow$ 27.3 F1）上显著优于强大的先前基线，并且利用我们先前关于每种类型问题的知识来选择上下文组合策略的版本表现更好。我们的提议模型在少样本思维链和标准少样本设置中通常也优于直接提示对更大模型（BLOOM 175B和StableVicuna 13B）。

一句话总结：

本文提出的方法通过结合大语言模型的推理和长上下文检索，显著提升了小语言模型在短答案问答任务中的推理能力。

VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model

发布时间：2023-08-09

作者：Tianyu Chen, Lin Li, Liuchuan Zhu, Zongyang Li, Xueqing Liu, Guangtai Liang, Qianxiang Wang, Tao Xie

：

中文摘要：

安全从业者维护漏洞报告（例如，GitHub Advisory）以帮助开发者减轻安全风险。这些数据库的一个重要任务是自动提取报告中提到的结构化信息，例如受影响的软件包，以加速漏洞生态系统的防御。然而，现有关于受影响包识别的工作难以达到高精度。一个原因是所有现有工作都集中在相对较小的模型上，因此它们无法利用大型语言模型的知识和语义能力。为了解决这一局限性，我们提出了VulLibGen，这是第一个使用LLM进行受影响包识别的方法。与现有工作不同，VulLibGen提出了直接生成受影响包的全新想法。为了提高精度，VulLibGen采用了监督微调（SFT）、检索增强生成（RAG）和本地搜索算法。本地搜索算法是我们引入的一种新颖的后处理算法，用于减少生成的包的幻觉。我们的评估结果表明，VulLibGen在GitHub Advisory（Java、JS、Python、Go）四个最受欢迎的生态系统中识别漏洞包的平均精度为0.806，而先前工作的最佳平均精度为0.721。此外，VulLibGen对安全实践具有很高的价值：我们向GitHub Advisory提交了60个《漏洞，受影响包》对（涵盖四个生态系统）。其中34个已被接受和合并，20个正在等待批准。我们的代码和数据集可以在附件中找到。

一句话总结：

VulLibGen通过利用大型语言模型，实现了高精度的受影响包识别，有效提升了漏洞生态系统的防御能力。

Hybrid Retrieval-Augmented Generation for Real-time Composition Assistance

发布时间：2023-08-08

作者：Menglin Xia, Xuchao Zhang, Camille Couturier, Guoqing Zheng, Saravan Rajmohan, Victor Ruhle

中文摘要：

检索增强通过引入额外的上下文来提升传统语言模型的表现。然而，检索增强的大型语言模型（LLMs）在应用于实时任务，如创作辅助时，其计算需求构成了挑战。为了解决这一限制，我们提出了混合检索增强生成（HybridRAG）框架，这是一种新颖的方法，它通过检索增强记忆有效地结合了基于云的LLM和较小的客户端端语言模型。这种集成使得客户端模型能够生成有效的响应，并从LLM的能力和上下文信息中受益。此外，通过异步内存更新机制，客户端模型能够迅速对用户输入提供实时完成，而无需等待来自云端的响应。我们的实验在五个基准数据集上表明，HybridRAG在保持低延迟的同时，显著提高了客户端模型的有效性。

一句话总结：

HybridRAG框架通过结合云端LLM和客户端语言模型，实现了实时创作辅助的高效和低延迟。

Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets

发布时间：2023-08-08

作者：Paul Primus, Khaled Koutini, Gerhard Widmer

中文摘要：

这项工作提出了一种基于预训练文本和频谱图转换器的文本到音频检索系统。我们的方法将录音和文本描述投影到一个共享的音频-字幕空间中，在这个空间中，来自不同模态的相关示例彼此靠近。通过系统分析，我们考察了系统每个组件对检索性能的影响。结果，我们确定了两个关键组件在驱动性能中起着至关重要的作用：基于自注意力机制的音频编码器用于音频嵌入，以及在预训练期间利用额外的由人类生成和合成的数据集。我们进一步实验了通过增加ClothoV2字幕中可用的关键词来增加其多样性；然而，这仅导致了微小的改进。我们的系统在2023年的DCASE挑战赛中排名第一，并且在ClothoV2基准测试上优于当前最先进的技术，提高了5.6 pp. mAP@10。

一句话总结：

该研究提出了一种基于预训练转换器的文本到音频检索系统，通过系统分析和实验验证，显著提升了检索性能，并在DCASE挑战赛中取得优异成绩。

RAHNet: Retrieval Augmented Hybrid Network for Long-tailed Graph Classification

发布时间：2023-08-04

作者：Zhengyang Mao, Wei Ju, Yifang Qin, Xiao Luo, Ming Zhang

中文摘要：

图分类是许多现实世界多媒体应用中的关键任务，在这些应用中，图可以表示各种多媒体数据类型，如图像、视频和社会网络。先前的研究在类别分布平衡的情况下应用了图神经网络（GNNs）。然而，现实世界的数据通常表现出长尾类别分布，导致在使用GNNs时对头部类别存在偏差，并且在尾部类别的泛化能力有限。最近的方法主要关注在模型训练期间重新平衡不同类别，但这未能明确引入新知识，并牺牲了头部类别的性能。为了解决这些缺点，我们提出了一种名为检索增强混合网络（Retrieval Augmented Hybrid Network，RAHNet）的新框架，以解耦的方式联合学习一个鲁棒的特征提取器和无偏的分类器。在特征提取器训练阶段，我们开发了一个图检索模块来搜索与尾部类别相关的图，从而直接丰富尾部类别的类内多样性。此外，我们创新性地优化了一种以类别为中心的监督对比损失，以获得具有判别性的表示，这更适合长尾场景。在分类器微调阶段，我们使用两种权重正则化技术，即最大范数和权重衰减，来平衡分类器权重。在多个流行基准上的实验验证了所提出的方法相对于最先进方法的优越性。

一句话总结：

提出了一种名为RAHNet的检索增强混合网络，通过联合学习鲁棒特征提取器和无偏分类器，有效解决了图分类中长尾类别分布带来的挑战。

Retrieval Augmented Generation and Representative Vector Summarization for large unstructured textual data in Medical Education

发布时间：2023-08-01

作者：S. S. Manathunga, Y. A. Illangasekara

中文摘要：

大型语言模型（LLMs）在内容生成和聊天机器人等任务中的应用越来越广泛。尽管它们在一般任务中表现出色，但在应用特定领域任务时，LLMs需要被对齐以减轻幻觉和产生有害答案的问题。检索增强生成（RAG）允许轻松地将非参数化知识库附加和操作到LLMs上。本文讨论了RAG在医学教育领域的应用。提出了一种使用代表性向量对大型非结构化文本数据进行联合提取和抽象摘要的方法。

一句话总结：

本文探讨了检索增强生成（RAG）在医学教育中的应用，并提出了一种基于代表性向量的联合提取和抽象摘要方法，以提高大型非结构化文本数据的处理效率。