Retrieval Augmented Generation - 2024年09月

RAG based Question-Answering for Contextual Response Prediction System

发布时间：2024-09-05

作者：Sriram Veturi, Saurabh Vaichal, Reshma Lal Jagadheesh, Nafis Irtiza Tripto, Nian Yan

中文摘要：

大型语言模型（LLMs）在多种自然语言处理（NLP）任务中表现出多功能性，包括其作为有效问答系统的潜力。然而，为了在行业环境中针对特定客户查询提供精确和相关的信息，LLMs需要访问一个全面的知识库以避免幻觉。检索增强生成（RAG）技术成为解决这一挑战的有希望的方法。然而，使用RAG开发适用于现实应用的准确问答框架涉及几个挑战：1）数据可用性问题，2）评估生成内容的质量，以及3）人工评估的成本高昂。在本文中，我们介绍了一个端到端框架，该框架采用具有RAG功能的LLMs用于行业用例。给定一个客户查询，所提出的系统检索相关知识文档，并利用这些文档以及之前的聊天历史，为大型零售公司客服中心的客户服务代表生成响应建议。通过全面的自动和人工评估，我们表明该解决方案在准确性和相关性方面优于当前的基于BERT的算法。我们的研究结果表明，基于RAG的LLMs可以通过减轻工作负担而成为优秀的人类客户服务代表的辅助工具。

一句话总结：

本文提出了一种基于RAG的LLMs框架，用于提高行业客户服务问答的准确性和相关性，从而减轻客服代表的工作负担。

GraphInsight: Unlocking Insights in Large Language Models for Graph Structure Understanding

发布时间：2024-09-05

作者：Yukun Cao, Shuo Han, Zengyi Gao, Zezhong Ding, Xike Xie, S. Kevin Zhou

中文摘要：

尽管大型语言模型（LLMs）在处理图方面展现出潜力，但它们在通过图描述序列的提示来理解图形结构信息方面存在困难，尤其是在图规模增加时。我们将这一挑战归因于LLMs在图描述序列不同位置上的记忆性能不均衡，这被称为“位置偏差”。为了解决这个问题，我们提出了GraphInsight，这是一个旨在提高LLMs对宏观和微观层面图形信息理解能力的新框架。GraphInsight基于两个关键策略：1）将关键图形信息放置在LLMs记忆性能更强的位置，2）借鉴检索增强生成（RAG）的灵感，为记忆性能较弱的区域研究轻量级的外部知识库。此外，GraphInsight探索将这些策略整合到LLM代理过程中，以处理需要多步推理的复合图任务。在广泛评估任务基准上的大量实证研究表明，GraphInsight在理解不同规模的图结构方面显著优于所有其他图描述方法（例如，提示技术和重排序策略）。

一句话总结：

GraphInsight通过优化LLMs对图形信息的记忆性能和利用外部知识库，显著提升了LLMs对图结构的理解能力。

MARAGS: A Multi-Adapter System for Multi-Task Retrieval Augmented Generation Question Answering

发布时间：2024-09-05

作者：Mitchell DeHaven

中文摘要：

本文提出了一种多适配器检索增强生成系统（MARAGS），用于参加Meta的KDD CUP 2024 Comprehensive RAG（CRAG）竞赛。CRAG是一个问答数据集，包含3个不同的子任务，旨在解决现实中的问答RAG相关任务，涵盖了多样化的问答主题、问题类型、时间动态答案以及不同知名度的实体问题。我们的系统遵循基于网络的RAG的标准设置，使用处理过的网页为大型语言模型（LLM）提供生成内容的环境，同时查询API端点获取额外信息。MARAGS还利用多个不同的适配器，通过标准交叉编码模型对与回答问题相关的候选段落进行排序，以满足这些任务的各种要求。我们的系统在任务1中获得了第二名，在任务2中获得了第三名。

一句话总结：

本文提出的多适配器检索增强生成系统（MARAGS）在KDD CUP 2024 CRAG竞赛中取得了优异成绩，通过结合多种适配器和标准交叉编码模型，实现了对问答任务的精准处理。

Bioinformatics Retrieval Augmentation Data (BRAD) Digital Assistant

发布时间：2024-09-04

作者：Joshua Pickard, Marc Andrew Choi, Natalie Oliven, Cooper Stansbury, Jillian Cwycyshyn, Nicholas Galioto, Alex Gorodetsky, Alvaro Velasquez, Indika Rajapakse

中文摘要：

本文提出了一种生物信息学检索增强数据（Bioinformatics Retrieval Augmentation Data，BRAD）数字助手的原型。BRAD集成了多种工具，能够处理从代码执行到在线搜索的广泛生物信息学任务。我们通过以下三个方面展示了BRAD的能力：（1）通过检索增强生成（Retrieval Augmented Generation，RAG）改进问答，（2）BRAD运行和编写复杂软件管道的能力，（3）BRAD在个体和团队代理之间组织和分配任务的能力。我们使用BRAD自动化生物信息学工作流程，执行从基因富集和搜索存档到自动代码生成和运行生物标志物识别管道等任务。BRAD是实现开发由自包含循环驱动的数字生物学实验假设生成和测试的实验室数字孪生的一个步骤。

一句话总结：

本文提出了一种名为BRAD的生物信息学数字助手，旨在通过集成多种工具和自动化工作流程，提高生物信息学研究的效率和准确性。

Creating a Gen-AI based Track and Trace Assistant MVP (SuperTracy) for PostNL

发布时间：2024-09-04

作者：Mohammad Reshadati

中文摘要：

荷兰最大的包裹和电子商务公司PostNL希望通过生成式人工智能（Generative AI）来提升包裹追踪和通信的效率。在实习期间，开发了一个最小可行产品（MVP），展示了使用生成式人工智能技术提升包裹追踪、分析包裹旅程并以易于理解的方式沟通的价值。主要目标是开发一个基于内部大型语言模型（LLM）的系统，减少对外部平台的依赖，并在公司内建立专门的生成式人工智能团队的可行性。该多智能体LLM系统旨在以更高的效率和准确性构建包裹旅程故事和识别物流中断。研究涉及部署一个复杂的AI驱动通信系统，采用检索增强生成（RAG）以提高响应精度，并优化针对特定领域任务的大语言模型（LLMs）。MVP成功实施了一个多智能体开源LLM系统，名为SuperTracy。SuperTracy能够自主管理广泛的用户查询并改善内部知识处理。结果和评估显示了技术创新和可行性，特别是在包裹追踪和通信方面，超出了初始预期。这些进步突显了AI驱动解决方案在物流领域的潜力，为PostNL运营框架内的进一步优化和更广泛的应用提供了许多机会。

（todo）

一句话总结：

PostNL通过开发基于生成式人工智能的包裹追踪系统，显著提升了物流效率和客户服务体验。

Advancing Cyber Incident Timeline Analysis Through Rule Based AI and Large Language Models

发布时间：2024-09-04

作者：Fatma Yasmine Loumachi, Mohamed Chahine Ghanem

中文摘要：

时间线分析（Timeline Analysis，TA）是数字取证（Digital Forensics，DF）中时间线取证（Timeline Forensics，TF）的关键部分，主要关注于检查和分析时间戳等时间数字证据，这些证据来源于事件日志、文件元数据和其他相关数据，以关联网络事件并重建其时间线。传统的工具往往难以高效地处理数字取证调查和事件响应（Incident Response，IR）过程中获取的大量和多样化的数据。本文提出了一种新颖的框架，GenDFIR，该框架结合了基于规则的智能（Rule-Based Artificial Intelligence，R-BAI）算法和大型语言模型（Large Language Models，LLMs），以推进和自动化时间线分析过程。我们的方法包括两个主要阶段：（1）我们使用R-BAI根据预定义的规则识别和选择异常数字证据。（2）选定的证据随后通过检索增强生成（Retrieval-Augmented Generation，RAG）代理的帮助转换为嵌入，以便由LLM进行处理。LLM随后利用其能力对证据进行自动化时间线分析并预测潜在的意外场景。为了验证我们的框架，我们使用各种指标评估了GenDFIR在合成网络事件模拟场景中的性能、效率和可靠性。本文提出了一种概念验证，其中发现证明了将R-BAI和LLMs集成用于时间线分析的巨大潜力。这种新颖的方法突出了生成式人工智能（Generative AI，GenAI），特别是LLMs的力量，并为高级威胁检测和事件重建开辟了新的途径，代表了该领域的一个重要进步。

一句话总结：

本文提出了一种结合基于规则的智能算法和大型语言模型的GenDFIR框架，以自动化和提升数字取证中的时间线分析过程，为高级威胁检测和事件重建提供了新的解决方案。

Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering

发布时间：2024-09-04

作者：Yeonjun In, Sungchul Kim, Ryan A. Rossi, Md Mehrab Tanjim, Tong Yu, Ritwik Sinha, Chanyoung Park

中文摘要：

检索增强生成（RAG）框架通过检索涵盖所有可能解释的段落，并基于这些段落生成全面响应，来解决问答系统中用户查询的歧义问题。然而，我们的初步研究表明，单一的检索过程往往会产生低质量的结果，因为检索到的段落经常无法捕捉到所有可能的解释。尽管迭代RAG方法已被提出以解决此问题，但它以显著降低效率为代价。为了解决这些问题，我们提出了多样化-验证-适应（DIVA）框架。DIVA首先将检索到的段落多样化，以涵盖不同的解释。随后，DIVA验证段落的品质，并针对其品质调整最合适的方法。这种方法通过处理模糊问题的低质量检索问题，提高了问答系统的准确性和鲁棒性，同时增强了效率。

一句话总结：

DIVA框架通过多样化检索段落、验证段落质量并适应不同品质的段落，提高了问答系统的准确性和鲁棒性，同时提升了效率。

NUDGE: Lightweight Non-Parametric Fine-Tuning of Embeddings for Retrieval

发布时间：2024-09-04

作者：Sepanta Zeighami, Zac Wellmer, Aditya Parameswaran

中文摘要：

$k$-近邻搜索（$k$-NN检索）在密集向量嵌入（$k$-NN检索）中的应用是文本、图像以及检索增强生成（RAG）流程中的主要检索方法。在实际应用中，开发者通常会对嵌入进行微调以提高其在特定数据集和查询负载上的准确性。现有的方法要么微调预训练模型本身，要么以牺牲准确性为代价，更高效地训练适配器模型以转换预训练模型的输出。我们提出了NUDGE，这是一系列新颖的非参数嵌入微调方法，其准确性和效率都显著高于现有方法。NUDGE直接修改数据记录的嵌入，以最大化$k$-NN检索的准确性。我们对NUDGE的非参数方法进行了全面的理论和实验研究。我们表明，尽管基础问题是NP-hard的，但受约束的变体可以高效地解决。这些约束还确保了嵌入的变化是适度的，避免了在预训练期间学习到的语义的较大扭曲。在五个预训练模型和九个标准文本和图像检索数据集上的实验中，NUDGE在几分钟内运行，并且通常比现有微调方法提高了超过10%的NDCG@10。平均而言，NUDGE在微调预训练模型和训练适配器方面分别提供了3.3倍和4.3倍的准确度提升，并且分别快200倍和3倍。

一句话总结：

NUDGE是一种高效且准确的非参数嵌入微调方法，显著提升了预训练模型在$k$-NN检索任务上的性能。

CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation

发布时间：2024-09-03

作者：Ingo Ziegler, Abdullatif Köksal, Desmond Elliott, Hinrich Schütze

中文摘要：

构建用于特定任务的优质数据集是一个耗时且资源密集的过程，通常需要专门的领域知识。我们提出了语料库检索和增强用于微调（CRAFT）的方法，该方法在给定少量用户编写的演示要执行任务的示例后生成合成数据集。在给定少量示例的情况下，我们使用大规模公开网络爬取的语料库和基于相似性的文档检索来找到其他相关的人工编写的文档。最后，指令调整的大型语言模型（LLMs）将检索到的文档增强为定制格式的任务样本，这些样本随后可用于微调。我们证明了CRAFT可以高效地为四个不同的任务生成大规模的任务特定训练数据集：生物学问答（QA）、医学QA和常识QA以及摘要。我们的实验表明，基于CRAFT的模型在QA任务上优于或与通用LLMs的性能相当，而基于CRAFT的摘要模型在偏好点上优于在人工整理的数据上训练的模型46个点。

一句话总结：

CRAFT通过利用大规模语料库和大型语言模型，能够高效生成特定任务的训练数据集，并在问答和摘要任务上展现出优于传统方法的性能。

A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks

发布时间：2024-09-03

作者：Nicholas Monath, Will Grathwohl, Michael Boratko, Rob Fergus, Andrew McCallum, Manzil Zaheer

中文摘要：

在密集检索中，深度编码器为输入和目标提供嵌入，softmax函数用于参数化大量候选目标（例如，信息检索中的文本段落）的分布。在目标数量庞大、目标编码器模型计算成本高以及由于目标编码器参数持续训练导致缓存的目标嵌入过时的情况下，训练这样的编码器会面临重大挑战。本文提出了一种简单且高度可扩展的解决方案，通过训练一个小型的参数校正网络来调整过时的缓存目标嵌入，从而实现准确的softmax近似并因此采样最新的高评分“硬负例”。我们理论上研究了所提出的目标校正器的一般化特性，将网络的复杂性、缓存表示的陈旧程度和训练数据量联系起来。我们在大型基准密集检索数据集以及检索增强语言模型中的问答任务上展示了实验结果。我们的方法即使在训练过程中不更新目标嵌入（仅使用从无监督预训练模型中获得的初始缓存）的情况下，也能达到最先进的结果，提供了4-80倍的重新嵌入计算成本降低。

一句话总结：

本文提出了一种通过训练小型校正网络调整过时嵌入以实现高效密集检索的方法。

The Role of Large Language Models in Musicology: Are We Ready to Trust the Machines?

发布时间：2024-09-03

作者：Pedro Ramoneda, Emilia Parada-Cabaleiro, Benno Weck, Xavier Serra

中文摘要：

在这项工作中，我们探讨了大型语言模型（LLMs）在音乐学中的应用和可靠性。通过与专家和学生的讨论，我们评估了这种如今无处不在的技术当前的接受度和相关担忧。我们旨在更进一步，提出一种半自动方法，通过检索增强生成模型和多项选择题生成来创建一个初始基准，并由人类专家进行验证。我们对400个由人类验证的问题进行的评估显示，当前的普通LLMs在音乐字典的检索增强生成方面可靠性较低。本文建议，LLMs在音乐学中的潜力需要由音乐学驱动的研发，通过包括准确和可靠的领域知识来专门化LLMs。

一句话总结：

本文通过实验评估了大型语言模型在音乐学中的应用，指出其可靠性有待提高，并建议通过音乐学驱动的研发来专门化LLMs。

In Defense of RAG in the Era of Long-Context Language Models

发布时间：2024-09-03

作者：Tan Yu, Anbang Xu, Rama Akkiraju

中文摘要：

克服早期一代大型语言模型（LLM）在上下文限制方面的局限性，检索增强生成（RAG）在过去一直是基于上下文答案生成的一个可靠解决方案。最近，长上下文LLM的出现使得模型能够整合更长的文本序列，使得RAG变得不那么吸引人。最近的研究表明，长上下文LLM在长上下文应用中显著优于RAG。与那些倾向于长上下文LLM而非RAG的现有工作不同，我们认为LLM中的极长上下文会导致对相关信息关注度的降低，并可能导致答案质量潜在下降。本文重新审视了长上下文答案生成中的RAG。我们提出了一种顺序保持检索增强生成（OP-RAG）机制，该机制显著提高了RAG在长上下文问答应用中的性能。在OP-RAG中，随着检索到的块的数量增加，答案质量最初上升，然后下降，形成一个倒U形曲线。存在一些甜点，在这些点上，OP-RAG可以用比长上下文LLM使用整个上下文作为输入要少的得多的大量标记实现更高的答案质量。在公共基准上的大量实验证明了我们OP-RAG的优越性。

一句话总结：

本文提出了一种顺序保持检索增强生成（OP-RAG）机制，显著提升了RAG在长上下文问答应用中的性能，实现了在更少标记的情况下达到更高的答案质量。

Benchmarking Cognitive Domains for LLMs: Insights from Taiwanese Hakka Culture

发布时间：2024-09-03

作者：Chen-Chi Chang, Ching-Yuan Chen, Hung-Shin Lee, Chih-Cheng Lee

中文摘要：

本研究介绍了一个综合性的基准，旨在评估大型语言模型（LLMs）在理解和处理文化知识方面的性能，并以客家文化作为案例研究。利用布鲁姆分类法，本研究开发了一个多维框架，系统地评估LLMs在六个认知领域：记忆、理解、应用、分析、评价和创造。这个基准超越了传统的单维度评估，通过提供对LLMs处理特定文化内容的更深层次分析，从基本事实的回忆到更高层次的认知任务，如创造性综合。此外，本研究整合了检索增强生成（RAG）技术来解决LLMs中少数民族文化知识表示的挑战，展示了RAG如何通过动态融入相关外部信息来提升模型性能。结果表明，RAG在所有认知领域提高准确性的有效性，特别是在需要精确检索和应用文化知识的任务中。然而，研究结果也揭示了RAG在创造性任务中的局限性，强调了进一步优化的必要性。这个基准为评估和比较文化多样环境中的LLMs提供了一个强大的工具，为未来AI驱动的文化知识保护和传播研究提供了宝贵的见解。

一句话总结：

本研究提出了一种评估大型语言模型在理解和处理文化知识，特别是客家文化方面的性能的基准，并展示了检索增强生成技术在提升模型性能方面的作用。

The Compressor-Retriever Architecture for Language Model OS

发布时间：2024-09-02

作者：Yuan Yang, Siheng Xiong, Ehsan Shareghi, Faramarz Fekri

中文摘要：

近年来，大型语言模型（LLMs）在跨多模态信息聚合和处理能力方面取得了显著进步，这使得它们能够执行包括多模态数据查询、工具使用、网络交互和长文档处理在内的广泛任务。这些能力为将LLMs从单纯的聊天机器人转变为能够与真实世界互动的通用代理铺平了道路。本文探讨了将语言模型作为操作系统（OS）核心组件的概念，它实际上充当了一个处理存储在上下文窗口中的数据的CPU，而上下文窗口则充当RAM。实现这样的LM OS的一个关键挑战是管理终身上下文并确保会话间的状态性，这一特性受到当前基于会话的交互范式的限制，因为上下文窗口大小有限。为了解决这个问题，我们引入了压缩器-检索器，这是一种针对终身上下文管理设计的模型无关架构。与检索增强生成等其他长上下文解决方案不同，我们的方法仅使用基模型的正向函数来压缩和检索上下文，确保端到端可微分。初步实验表明，这种架构在上下文学习任务中的有效性，标志着向开发完全状态性的LLM OS迈出的一步。项目仓库可在以下链接找到：https://github.com/gblackout/LM-OS

一句话总结：

本文提出了一种基于语言模型的操作系统架构，通过压缩器-检索器技术实现终身上下文管理，旨在打造一个能够处理复杂任务的通用智能代理。

A Review of Image Retrieval Techniques: Data Augmentation and Adversarial Learning Approaches

发布时间：2024-09-02

作者：Kim Jinwoo

中文摘要：

图像检索是计算机视觉领域的一个关键研究课题，其应用前景广泛，从在线产品搜索到安全监控系统均有涉及。近年来，随着深度学习的发展，图像检索的准确性和效率得到了显著提升。然而，现有的方法仍然面临着诸多挑战，尤其是在处理大规模数据集、跨域检索以及由现实条件（如光照变化、遮挡和视角变化）引起的图像扰动方面。数据增强技术和对抗学习方法在图像检索领域被广泛应用，以应对这些挑战。数据增强通过生成更多样化的训练样本、模拟现实世界的变异性以及减少过拟合来增强模型的一般化能力和鲁棒性。同时，对抗攻击和防御在训练过程中引入扰动，以提高模型对潜在攻击的鲁棒性，确保在实际应用中的可靠性。本文全面总结了图像检索领域的最新研究进展，特别关注数据增强和对抗学习技术在提升检索性能中的作用。同时，也讨论了未来的研究方向和潜在挑战。

一句话总结：

本文综述了图像检索的最新进展，重点探讨了数据增强和对抗学习技术在提高检索性能中的作用，并展望了未来的研究方向和挑战。

Harnessing the Power of Semi-Structured Knowledge and LLMs with Triplet-Based Prefiltering for Question Answering

发布时间：2024-09-01

作者：Derian Boer, Fabian Koch, Stefan Kramer

中文摘要：

大型语言模型（LLMs）通常缺乏特定领域的知识，即使是经过微调的模型也倾向于产生幻觉。因此，需要更可靠、能够包含外部知识的模型。我们提出了一种名为4StepFocus的流水线，其中特别包括一个预处理步骤，可以显著提高LLMs的答案质量。这是通过利用模型自身捕捉关系上下文和进行基本推理的能力，提供对外部知识的引导访问来实现的。该方法通过在半结构化知识库中进行基于三元组的搜索，以直接和可追溯的方式缩小潜在的正确答案范围，然后再切换到潜在表示来根据非结构化数据对这些候选答案进行排序。这使得它区别于仅基于潜在表示的相关方法。4StepFocus包括以下步骤：1）由LLM生成三元组以提取关系数据，2）使用知识图替换这些三元组中的变量，以缩小答案候选者的范围，3）使用涉及相关非结构化数据的向量相似度搜索对剩余的候选答案进行排序，4）使用提供的背景数据由LLM重新排序最佳候选答案。在医学、产品推荐和学术论文搜索测试集上的实验表明，这种方法确实是一种强大的增强。它不仅增加了来自信息检索的相关可追溯的背景信息，而且与最先进的方法相比，性能得到了显著提高。本文提出了一种新颖的、在很大程度上未被探索的方向，因此提供了广泛的工作机会。使用的源代码可在https://github.com/kramerlab/4StepFocus上找到。

一句话总结：

4StepFocus通过结合外部知识和LLMs的推理能力，显著提升了LLMs在特定领域的答案质量。

A Learnable Agent Collaboration Network Framework for Personalized Multimodal AI Search Engine

发布时间：2024-09-01

作者：Yunxiao Shi, Min Xu, Haimin Zhang, Xing Zi, Qiang Wu

中文摘要：

大型语言模型（LLMs）和检索增强生成（RAG）技术已经彻底改变了传统的信息获取方式，使得人工智能代理能够在动态对话中代表用户搜索和总结信息。尽管它们具有巨大潜力，但当前的AI搜索引擎在多个关键领域仍有很大的改进空间。这些领域包括支持多模态信息、提供个性化响应、逻辑回答复杂问题以及促进更灵活的交互。本文提出了一种名为代理协作网络（ACN）的新型AI搜索引擎框架。ACN框架由多个具有不同角色（如账户经理、解决方案策略师、信息经理和内容创作者）的专用代理协同工作组成。该框架集成了图像内容理解、用户档案跟踪和在线演化的机制，提高了AI搜索引擎的响应质量、个性化和交互性。ACN的一个亮点是引入了反思前向优化方法（RFO），该方法支持代理之间的在线协同调整。这一特性赋予了ACN在线学习能力，确保系统具有强大的交互灵活性并能迅速适应用户反馈。这种学习方法也可能作为基于代理系统的优化方法，可能影响其他代理应用领域。

一句话总结：

本文提出了一种名为代理协作网络（ACN）的AI搜索引擎框架，通过引入反思前向优化方法，提高了搜索引擎的响应质量、个性化和交互性，并具有在线学习能力。