Retrieval Augmented Generation - 2024年06月

Large Language Models Struggle in Token-Level Clinical Named Entity Recognition

发布时间：2024-06-30

作者：Qiuhao Lu, Rui Li, Andrew Wen, Jinlian Wang, Liwei Wang, Hongfang Liu

中文摘要：

大型语言模型（LLMs）在多个领域产生了革命性的影响，包括医疗保健领域，它们被应用于各种应用中。在罕见疾病这一数据稀缺、复杂且具有特定性的背景下，LLMs的效用尤为重要。在临床领域，命名实体识别（NER）是一项基本任务，它在从临床文本中提取相关信息方面发挥着关键作用。尽管LLMs具有巨大潜力，但当前研究主要集中在对文档级别的NER，即在更广泛的文档上下文中识别实体，而不提取它们的精确位置。此外，研究工作还致力于将ChatGPT应用于标记级别的NER。然而，在将标记级别的NER应用于临床文本，尤其是使用本地开源LLMs时，仍存在显著的研究空白。本研究旨在通过调查专有和本地LLMs在标记级别临床NER中的有效性来弥合这一差距。本质上，我们通过一系列涉及零样本提示、少量样本提示、检索增强生成（RAG）和指令微调的实验来深入研究这些模型的潜力。我们的探索揭示了LLMs在标记级别NER中固有的挑战，尤其是在罕见疾病的背景下，并提出了可能的改进措施，以促进其在医疗保健领域的应用。这项研究有助于缩小医疗信息学中的一个重大差距，并为LLMs在医疗保健领域的更精细应用提供了见解。

一句话总结：

本研究探讨了专有和本地LLMs在标记级别临床NER中的有效性，以弥合现有研究空白，并为LLMs在医疗保健领域的应用提供改进建议。

Large Language Models Struggle in Token-Level Clinical Named Entity Recognition

发布时间：2024-06-30

作者：Qiuhao Lu, Rui Li, Andrew Wen, Jinlian Wang, Liwei Wang, Hongfang Liu

中文摘要：

大型语言模型（LLMs）在多个领域产生了革命性的影响，包括医疗保健领域，其中它们被应用于各种应用。在罕见疾病的情况下，数据稀缺、复杂性和特异性带来了巨大的挑战，这使得LLMs的效用尤为显著。在临床领域，命名实体识别（NER）是一项基本任务，它在从临床文本中提取相关信息方面发挥着关键作用。尽管LLMs具有巨大潜力，但当前研究主要集中在文档级别的NER，即在更广泛的文档上下文中识别实体，而不提取它们的精确位置。此外，研究工作还致力于将ChatGPT应用于标记级别的NER。然而，在将标记级别的NER应用于临床文本，特别是使用本地开源LLMs时，存在一个显著的研究空白。本研究旨在通过调查专有和本地LLMs在标记级别临床NER中的有效性来弥合这一差距。本质上，我们通过一系列涉及零样本提示、少量样本提示、检索增强生成（RAG）和指令微调的实验来深入研究这些模型的潜力。我们的探索揭示了LLMs在标记级别NER中固有的挑战，尤其是在罕见疾病的背景下，并提出了可能的改进措施，以促进其在医疗保健领域的应用。这项研究有助于缩小医疗信息学中的一个重大差距，并为LLMs在医疗保健领域的更精细应用提供了见解。

一句话总结：

本研究通过实验评估了专有和本地LLMs在标记级别临床NER中的有效性，以弥合现有研究在罕见疾病领域应用LLMs的空白。

Answering real-world clinical questions using large language model based systems

发布时间：2024-06-29

作者：Yen Sia Low, Michael L. Jackson, Rebecca J. Hyde, Robert E. Brown, Neil M. Sanghavi, Julian D. Baldwin, C. William Pike, Jananee Muralidharan, Gavin Hui, Natasha Alexander, Hadeel Hassan, Rahul V. Nene, Morgan Pike, Courtney J. Pokrzywa, Shivam Vedak, Adam Paul Yan, Dong-han Yao, Amy R. Zipursky, Christina Dinh, Philip Ballentine, Dan C. Derieg, Vladimir Polony, Rehan N. Chawdry, Jordan Davies, Brigham B. Hyde, Nigam H. Shah, Saurabh Gombar

中文摘要：

在医疗决策中，指导证据常常因缺乏相关和可靠的文献以及难以将现有研究应用于特定患者而受限。大型语言模型（LLMs）有可能通过总结已发表的文献或基于真实世界数据（RWD）生成新的研究来解决这两个挑战。我们评估了五个基于LLM的系统在回答50个临床问题方面的能力，并让九位独立的医生对回答的相关性、可靠性和可操作性进行审查。目前，通用型LLMs（ChatGPT-4、Claude 3 Opus、Gemini Pro 1.5）很少产生被认为相关和基于证据的回答（2% - 10%）。相比之下，基于检索增强生成（RAG）和代理型LLM系统为24%（OpenEvidence）到58%（ChatRWD）的问题产生了相关和基于证据的回答。只有代理型ChatRWD与其他LLMs相比能够回答新颖问题（65% vs. 0-9%）。这些结果表明，虽然通用型LLMs不应直接使用，但基于RAG的证据总结专用系统和用于生成新证据的协同工作系统将提高患者护理中相关证据的可用性。

一句话总结：

基于RAG的专用证据总结系统和生成新证据的代理型LLM系统可提高医疗决策中相关证据的可用性。

BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

发布时间：2024-06-29

作者：Xinna Lin, Siqi Ma, Junjie Shan, Xiaojing Zhang, Shell Xu Hu, Tiannan Guo, Stan Z. Li, Kaicheng Yu

中文摘要：

追求生物医学科学的人工智能，即AI科学家，正日益受到关注，其中一种常见的方法是构建由大型语言模型（LLMs）驱动的协同代理。然而，为了评估这样的系统，人们要么依赖于直接向LLM本身进行问答（QA），要么采用生物医学实验方法。从AI科学家的角度来看，如何精确地评估生物医学代理仍是一个未充分探索的问题。为此，我们借鉴了科学家最重要的能力之一——理解文献，并引入了BioKGBench。与仅关注事实问答的传统评估基准不同，其中LLMs已知存在幻觉问题，我们首先将“理解文献”分解为两个原子能力：i) 通过执行科学主张验证来“理解”研究论文中的非结构化文本，以及ii) 能够以“文献”归因的形式与结构化知识图谱问答（KGQA）进行交互。然后，我们使用KGQA和基于领域的检索增强生成（RAG）来制定一个新颖的代理任务，称为KGCheck，以识别现有大规模知识图谱数据库中的事实错误。我们收集了超过两千条数据用于两个原子任务，以及225条高质量标注数据用于代理任务。令人惊讶的是，我们发现最先进的代理，无论是日常场景还是生物医学场景，在我们的基准测试中要么失败，要么表现不佳。然后，我们引入了一个简单而有效的基线，称为BKGAgent。在广泛使用的流行知识图谱上，我们发现超过90个事实错误，为代理提供了发现场景并证明了我们方法的有效性。代码和数据可在https://github.com/westlake-autolab/BioKGBench上获取。

一句话总结：

本研究通过引入BioKGBench，从理解文献的角度对生物医学代理进行了精确评估，揭示了现有代理在事实识别上的不足，并提出了改进方案。

A Study on Effect of Reference Knowledge Choice in Generating Technical Content Relevant to SAPPhIRE Model Using Large Language Model

发布时间：2024-06-29

作者：Kausik Bhattacharya, Anubhab Majumder, Amaresh Chakrabarti

中文摘要：

使用SAPPhIRE模型（因果模型）来表示系统可以在设计中提供灵感。然而，创建一个关于技术或自然系统的SAPPhIRE模型需要从多个技术文档中获取关于系统工作原理的技术知识。本研究探讨了如何使用大型语言模型（LLM）准确生成与SAPPhIRE因果模型相关联的技术内容。本文是两阶段研究的第一部分，提出了一种使用LLM和检索增强生成（RAG）方法来抑制幻觉，以生成由与SAPPhIRE结构相关的科学信息支持的技术内容的方法。该研究的结果表明，在为LLM提供上下文以生成技术内容时，所选择的参考知识的选择非常重要。本研究的结果被用于构建一个软件支持工具，用于生成特定技术系统的SAPPhIRE模型。

一句话总结：

本研究提出了一种利用大型语言模型和检索增强生成技术来准确生成与SAPPhIRE因果模型相关联的技术内容的方法。

Scalable and Domain-General Abstractive Proposition Segmentation

发布时间：2024-06-28

作者：Mohammad Javad Hosseini, Yang Gao, Tim Baumgärtner, Alex Fabrikant, Reinald Kim Amplayo

中文摘要：

文本细粒度意义单元的分割对于广泛的自然语言处理（NLP）应用至关重要。将文本分割成句子的默认方法通常是不够的，尤其是句子通常足够复杂，包含多个值得单独处理的含义单元。我们专注于抽象命题分割的任务：将文本转换为简单、自包含、结构良好的句子。一些最近的研究已经证明了命题分割在少量提示下的大型语言模型（LLMs）对于下游任务，如检索增强的基座和事实验证的效用。然而，这种方法无法扩展到大量文本，并且可能无法总是从输入文本中提取所有事实。在本文中，我们首先为该任务引入了评估指标，以衡量质量的多维度。然后，我们提出了一种可扩展且准确的命题分割模型。我们将命题分割建模为一个监督任务，通过在现有的标注数据集上训练LLMs来展示训练可以显著提高结果。我们进一步表明，通过使用微调的LLMs作为标注大量多领域合成蒸馏数据的教师，我们可以训练出与教师LLMs结果相似的小型学生模型。然后，我们展示了我们的技术通过在两个原始训练数据之外的领域标注数据并对其评估，实现了有效的领域泛化。最后，作为本文的关键贡献，我们分享了一个易于使用的API，供NLP从业者使用。

一句话总结：

本文提出了一种可扩展且准确的命题分割模型，通过微调LLMs和领域泛化技术，实现了对大量文本的细粒度意义单元分割。

SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs

发布时间：2024-06-28

作者：Xin Su, Man Luo, Kris W Pan, Tien Pei Chou, Vasudev Lal, Phillip Howard

中文摘要：

近年来，合成数据生成因其在大规模视觉和语言模型训练中的实用性而受到广泛关注。然而，将合成数据应用于多模态上下文增强生成系统的训练相对较少被探索。这一现有工作的差距非常重要，因为现有的视觉和语言模型（VLMs）并未专门针对上下文增强生成进行训练。因此，适应这些模型的资源对于在检索增强生成（RAG）环境中使用它们至关重要，在这种环境中，检索器用于收集相关信息，然后通过上下文增强将其提供给生成模型。为了解决这个具有挑战性的问题，我们生成了SK-VQA：一个包含超过200万个问答对的大型合成多模态数据集，这些问答对需要外部知识来确定最终答案。我们的数据集在规模和多样性方面都显著优于现有资源，拥有超过11倍的独特问题，并且包含比先前提出的数据集更多样化的图像来源。通过广泛的实验，我们证明了我们的合成数据集不仅可以作为一个具有挑战性的基准，而且对于将现有的生成多模态模型适应上下文增强生成也非常有效。

一句话总结：

本研究通过生成SK-VQA数据集，为上下文增强生成系统提供了有效的合成数据，并证明了其在大规模视觉和语言模型训练中的实用性。

发布时间：2024-06-28

作者：Ran Chen, Xueqi Yao, Xuhui Jiang

中文摘要：

本研究介绍了LLM4DESIGN，这是一个高度自动化的系统，用于生成建筑和环境设计提案。LLM4DESIGN仅依靠场地条件和设计要求，利用多智能体系统（Multi-Agent systems）来激发创造力，检索增强生成（Retrieval Augmented Generation，RAG）来确保设计的现实性，以及视觉语言模型（Visual Language Models，VLM）来同步所有信息。该系统产生了连贯的、多图示的、多文本的设计方案。在生成建筑和环境设计提案时，该系统满足了叙事讲述和客观绘图展示的双重需求。广泛的比较和消融实验证实了LLM4DESIGN叙事的创新性和其计划的接地适用性，展示了其在城市更新设计领域的优越性能。最后，我们创建了第一个涵盖建筑、景观、室内和城市设计的跨模态设计方案数据集，为未来的研究提供了丰富的资源。

一句话总结：

LLM4DESIGN是一种创新的自动化设计系统，能够生成符合现实性和叙事性的建筑和环境设计方案。

Development and Evaluation of a Retrieval-Augmented Generation Tool for Creating SAPPhIRE Models of Artificial Systems

发布时间：2024-06-27

作者：Anubhab Majumder, Kausik Bhattacharya, Amaresh Chakrabarti

中文摘要：

使用SAPPhIRE因果模型来表示系统被认为有助于支持类比设计。然而，创建人工或生物系统的SAPPhIRE模型是一个劳动密集型过程，需要人类专家从多个关于系统工作原理的技术文档中获取技术知识。本研究探讨了如何利用大型语言模型（LLMs）来创建使用SAPPhIRE因果模型的结构化系统描述。本文是两阶段研究的第二部分，提出了一种新的检索增强生成（RAG）工具，用于生成与人工系统SAPPhIRE结构相关的信息，并报告了该工具初步评估的成功结果——重点关注结果的客观准确性和可靠性。

一句话总结：

本研究提出了一种利用大型语言模型和RAG工具创建人工系统SAPPhIRE模型结构化描述的方法，并通过初步评估验证了其准确性和可靠性。

From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

发布时间：2024-06-27

作者：Zheyang Xiong, Vasilis Papageorgiou, Kangwook Lee, Dimitris Papailiopoulos

中文摘要：

最近的研究表明，大型语言模型（LLMs）在处理长文本输入时，难以准确检索信息和保持推理能力。为了解决这些局限性，我们提出了一种利用精心设计的合成数据集进行微调的方法，该数据集包含数值型键值检索任务。我们在GPT-3.5 Turbo和Mistral 7B等模型上的实验表明，在上述数据集上微调LLMs可以显著提高LLMs在长文本场景下的信息检索和推理能力。我们对微调后的模型进行了分析，展示了从合成任务到真实任务评估（例如，GPT-3.5 Turbo在20篇文档的MDQA位置10上提高了10.5%）的技能迁移。我们还发现，微调后的LLMs在通用基准测试上的性能几乎保持不变，而其他基于基线长文本增强数据的LLMs微调可能会鼓励幻觉（例如，在TriviaQA上，基于我们合成数据进行微调的Mistral 7B没有性能下降，而其他基线数据可能导致从2.33%到6.19%的性能下降）。我们的研究突出了在合成数据上微调的潜力，可以提升LLMs在长文本任务上的性能。

一句话总结：

本研究提出了一种基于合成数据集的微调方法，显著提升了大型语言模型在长文本场景下的信息检索和推理能力。

ColPali: Efficient Document Retrieval with Vision Language Models

发布时间：2024-06-27

作者：Manuel Faysse, Hugues Sibille, Tony Wu, Bilel Omrani, Gautier Viaud, Céline Hudelot, Pierre Colombo

中文摘要：

文档是视觉丰富的结构，通过文本、表格、图表、页面布局或字体等方式传达信息。尽管现代文档检索系统在查询与文本匹配方面表现出色，但它们在有效利用视觉线索方面存在困难，这阻碍了它们在检索增强生成等实际文档检索应用中的性能。为了评估当前系统在视觉丰富文档检索方面的表现，我们引入了视觉文档检索基准ViDoRe，它由多个领域、语言和设置中的页面级检索任务组成。现代系统的固有缺陷促使我们引入了一种新的检索模型架构ColPali，该架构利用了最近视觉语言模型对文档理解的能力，仅从文档页面的图像中产生高质量的上下文嵌入。结合后期交互匹配机制，ColPali在性能上大幅超越现代文档检索管道，同时显著提高速度并实现端到端训练。

一句话总结：

本研究提出了一种新的视觉文档检索模型ColPali，通过结合视觉语言模型和后期交互匹配机制，显著提升了文档检索的性能和效率。

AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation

发布时间：2024-06-27

作者：Jia Fu, Xiaoting Qin, Fangkai Yang, Lu Wang, Jue Zhang, Qingwei Lin, Yubo Chen, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

中文摘要：

近年来，大型语言模型（Large Language Models）的进步改变了机器学习/人工智能（ML/AI）的发展，这需要对检索增强生成（Retrieval-Augmented Generation，RAG）系统的自动机器学习（AutoML）原则进行重新评估。为了解决RAG中超参数优化和在线自适应的挑战，我们提出了AutoRAG-HP框架，该框架将超参数调整形式化为在线多臂老虎机（Multi-Armed Bandit，MAB）问题，并引入了一种新颖的两级分层MAB（Hierarchical MAB，Hier-MAB）方法，以高效地探索大型搜索空间。我们使用ALCE-ASQA和Natural Questions数据集，对诸如top-k检索文档、提示压缩比和嵌入方法等超参数进行了广泛的实验。我们通过联合优化所有三个超参数的评估表明，基于MAB的在线学习方法可以在搜索空间中具有显著梯度的场景下实现Recall@5 ≈ 0.8，而所需的LLM API调用次数仅为网格搜索方法所需次数的约20%。此外，所提出的Hier-MAB方法在更具挑战性的优化场景中优于其他基线。代码将在https://aka.ms/autorag处提供。

一句话总结：

本文提出了一种基于分层MAB的自动RAG-HP框架，有效解决了RAG系统中的超参数优化和在线自适应问题，显著提升了检索增强生成系统的性能。

UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models

发布时间：2024-06-27

作者：Siyuan Wu, Yue Huang, Chujie Gao, Dongping Chen, Qihui Zhang, Yao Wan, Tianyi Zhou, Xiangliang Zhang, Jianfeng Gao, Chaowei Xiao, Lichao Sun

中文摘要：

大型语言模型（LLMs）如GPT-4和Llama3通过实现高质量合成数据生成并减少对昂贵的人造数据集的依赖，对各个领域产生了重大影响。尽管如此，在现有的生成框架中，仍存在泛化、可控性、多样性和真实性等方面的挑战。为了解决这些挑战，本文提出了一种名为UniGen的全面性的LLM驱动框架，旨在生成多样、准确且高度可控的数据集。UniGen具有适应性，支持所有类型的文本数据集，并通过创新机制增强生成过程。为了增加数据多样性，UniGen集成了属性引导的生成模块和分组检查功能。为了确保准确性，它采用基于代码的数学评估方法进行标签验证，并使用检索增强的生成技术进行事实验证。该框架还允许用户指定约束条件，以便根据特定需求定制数据生成过程。广泛的实验表明，UniGen生成数据的优越质量，UniGen中的每个模块都在这一提升中发挥着关键作用。此外，UniGen在两个实际场景中得到应用：LLM基准测试和数据增强。结果表明，UniGen有效地支持了动态和演变的基准测试，并且数据增强在各个领域提高了LLM的能力，包括面向代理的能力和推理技能。

一句话总结：

本文提出的UniGen框架通过创新机制和模块化设计，有效提升了LLM生成数据的多样性和准确性，并在基准测试和数据增强等实际场景中展现出显著优势。

Learning Retrieval Augmentation for Personalized Dialogue Generation

发布时间：2024-06-27

作者：Qiushi Huang, Shuai Fu, Xubo Liu, Wenwu Wang, Tom Ko, Yu Zhang, Lilian Tang

中文摘要：

个性化对话生成，通过利用角色配置文件和对话上下文来生成高度定制化的回复，在对话式人工智能应用中受到了广泛关注。然而，当前个性化对话数据集中普遍存在的角色配置文件，通常仅由四到五句话组成，可能无法全面描述关于代理人的角色信息，这给生成真正个性化的对话带来了挑战。为了解决这个问题，我们提出了$\textbf{L}$earning Retrieval $\textbf{A}$ugmentation for $\textbf{P}$ersonalized $\textbf{D}$ial$\textbf{O}$gue $\textbf{G}$eneration ($\textbf{LAPDOG}$)方法，该方法研究了利用外部知识进行角色对话生成的潜力。具体来说，提出的LAPDOG模型由一个故事检索器和对话生成器组成。故事检索器使用给定的角色配置文件作为查询，从故事文档中检索相关信息，这些信息作为补充上下文来增强角色配置文件。对话生成器利用对话历史和增强的角色配置文件来生成个性化的回复。为了优化，我们采用了一个联合训练框架，协同学习故事检索器和对话生成器，其中故事检索器被优化以追求期望的最终指标（例如，BLEU）来检索对话生成器生成个性化回复的内容。在CONVAI2数据集上进行的实验，将ROCStory作为补充数据源，表明提出的LAPDOG方法显著优于基线方法，表明了该方法的有效性。LAPDOG模型代码已公开，供进一步探索。

一句话总结：

LAPDOG方法通过利用外部知识和联合训练框架，显著提升了个性化对话生成的效果。

Which Neurons Matter in IR? Applying Integrated Gradients-based Methods to Understand Cross-Encoders

发布时间：2024-06-27

作者：Mathias Vast, Basile Van Cooten, Laure Soulier, Benjamin Piwowarski

中文摘要：

随着检索增强生成（RAG）技术的近期加入，信息检索（IR）的范围和重要性得到了扩展。因此，对IR模型进行更深入理解的重要性也随之增加。然而，在IR领域，可解释性研究仍然相对较少，尤其是在模型内部机制方面。在本文中，我们探讨了在IR环境中将集成梯度方法进行适配的可能性，以识别模型中单个神经元的角色。特别是，我们提供了关于我们称之为“相关性”神经元的作用的新见解，以及它们如何处理未见数据。最后，我们进行了一项深入的剪枝研究来验证我们的发现。

一句话总结：

本文通过集成梯度方法在信息检索领域探索了模型中单个神经元的作用，并对其处理未见数据的能力进行了深入研究。

Seeing Is Believing: Black-Box Membership Inference Attacks Against Retrieval Augmented Generation

发布时间：2024-06-27

作者：Yuying Li, Gaoyang Liu, Yang Yang, Chen Wang

中文摘要：

检索增强生成（RAG）是一种最先进的增强大型语言模型（LLMs）的技术，它通过从外部非参数数据库中检索相关知识来提升LLMs的性能。这种方法旨在减轻LLMs常见的幻觉和过时知识等问题。尽管现有研究已经证明了RAG系统中的安全和隐私漏洞，使其容易受到越狱和提示注入等攻击，但RAG系统外部数据库的安全性仍然被大量未探索。在本文中，我们使用成员身份推断攻击（MIA）来确定一个样本是否是RAG系统的知识数据库的一部分，仅通过黑盒API访问。我们的核心假设是，如果一个样本是成员，它将显示出与RAG系统生成的文本的显著相似性。为了验证这一点，我们计算余弦相似度和模型的困惑度来建立成员身份分数，从而构建鲁棒的特征。然后，我们引入了两种新颖的攻击策略：基于阈值的攻击和基于机器学习的攻击，旨在准确识别成员身份。我们方法的实验验证达到了82%的ROC AUC。

一句话总结：

本文通过成员身份推断攻击，探索了RAG系统外部数据库的安全性，并提出了两种新的攻击策略来提高对RAG系统成员身份识别的准确性。

RAVEN: Multitask Retrieval Augmented Vision-Language Learning

发布时间：2024-06-27

作者：Varun Nagaraj Rao, Siddharth Choudhary, Aditya Deshpande, Ravi Kumar Satzoda, Srikar Appalaraju

中文摘要：

大型语言模型的扩展以编码世界上所有知识到模型参数中是不可持续的，并且加剧了资源壁垒。检索增强生成（RAG）提供了一种潜在的解决方案，但其应用于视觉语言模型（VLMs）的研究尚不充分。现有方法主要关注为单一任务设计的模型。此外，它们受到资源密集型预训练需求、额外参数要求、未解决的模态优先级和与未检索基线相比缺乏明确优势的限制。本文介绍了RAVEN，这是一个多任务检索增强的VLM框架，通过高效的、特定任务的微调来增强基础VLMs。通过整合检索增强样本而不需要额外的检索特定参数，我们表明模型获得了在多个任务中有效的检索属性。我们的结果和针对图像描述和VQA任务的检索模态的广泛消融实验表明，与未检索基线相比，在MSCOCO上提高了+1 CIDEr，在NoCaps上提高了+4 CIDEr，在特定VQA问题类型上几乎提高了+3%的准确率。这强调了将RAG方法应用于VLMs的有效性，标志着向更高效和易于访问的多模态学习迈进的一步。

一句话总结：

本文提出的RAVEN框架通过检索增强的多任务学习，显著提升了视觉语言模型在图像描述和VQA任务上的性能，为高效和易于访问的多模态学习提供了新的途径。

Assessing the Effectiveness of LLMs in Android Application Vulnerability Analysis

发布时间：2024-06-27

作者：Vasileios Kouliaridis, Georgios Karopoulos, Georgios Kambourakis

中文摘要：

随着对Android应用程序攻击频率的增加以及大型语言模型（LLMs）的近期流行，有必要全面了解后者在识别潜在漏洞方面的能力，这对于降低整体风险至关重要。为此，本研究比较了九种最先进的LLMs在检测最新Open Worldwide Application Security Project（OWASP）Mobile Top 10中列出的Android代码漏洞方面的能力。每个LLM都针对一个包含超过100个易受攻击代码样本的公开数据集进行了评估，包括混淆的样本，以评估每个模型识别关键漏洞的能力。我们的分析揭示了每个LLM的优势和劣势，并确定了影响其性能的重要因素。此外，我们还提供了关于使用检索增强生成（RAG）进行Android代码漏洞检测的上下文增强的见解，这反过来又可能推动安全应用程序的开发。最后，尽管关于代码漏洞分析的报告结果显示出希望，但也揭示了不同LLM之间存在显著的差异。

一句话总结：

本研究评估了九种大型语言模型在检测Android代码漏洞方面的能力，并揭示了它们在安全应用程序开发中的潜力及其性能差异。

UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models

发布时间：2024-06-27

作者：Siyuan Wu, Yue Huang, Chujie Gao, Dongping Chen, Qihui Zhang, Yao Wan, Tianyi Zhou, Xiangliang Zhang, Jianfeng Gao, Chaowei Xiao, Lichao Sun

中文摘要：

大型语言模型（LLMs）如GPT-4和Llama3通过实现高质量合成数据生成并减少对昂贵的人造数据集的依赖，对各个领域产生了重大影响。尽管如此，在现有的生成框架中，仍存在泛化、可控性、多样性和真实性方面的挑战。为了解决这些挑战，本文提出了一种名为UniGen的全面性的LLM驱动框架，旨在生成多样、准确且高度可控的数据集。UniGen具有适应性，支持所有类型的文本数据集，并通过创新机制增强生成过程。为了增加数据多样性，UniGen集成了属性引导的生成模块和分组检查功能。为了确保准确性，它采用基于代码的数学评估方法进行标签验证，并采用检索增强的生成技术进行事实验证。该框架还允许用户指定约束条件，以便根据特定需求定制数据生成过程。广泛的实验表明，UniGen生成数据的优越质量，UniGen中的每个模块都在这一提升中发挥着关键作用。此外，UniGen在两个实际场景中得到应用：LLM基准测试和数据增强。结果表明，UniGen有效地支持动态和演变的基准测试，并且数据增强在各个领域提高了LLM的能力，包括面向代理的能力和推理技能。

一句话总结：

本文提出的UniGen框架通过创新机制和模块化设计，有效提升了LLM生成数据的多样性和准确性，并在基准测试和数据增强中展现出其实际应用价值。

Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation

发布时间：2024-06-26

作者：Guanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen

中文摘要：

检索增强生成（RAG）在缓解大型语言模型（LLMs）的幻觉问题方面已显示出其有效性。然而，将检索器与多样化的LLMs知识偏好对齐的难度不可避免地给开发可靠的RAG系统带来了挑战。为了解决这个问题，我们提出了DPA-RAG，这是一个旨在在RAG系统中对齐多样化知识偏好的通用框架。具体来说，我们首先介绍了一个偏好知识构建流程，并融入了五种新颖的查询增强策略以缓解偏好数据稀缺问题。基于偏好数据，DPA-RAG实现了外部和内部偏好对齐：1) 它将成对、点对点和对比偏好对齐能力联合集成到重排器中，实现了RAG组件之间的外部偏好对齐。2) 它在传统的监督微调（SFT）之前引入了一个预对齐阶段，使LLMs能够隐式地捕获与其推理偏好一致的知识，从而实现LLMs的内部对齐。在四个知识密集型问答数据集上的实验结果表明，DPA-RAG优于所有基线，并能无缝集成黑盒和开源的LLM读取器。进一步的定性和讨论也为实现可靠的RAG系统提供了经验指导。我们的代码在https://github.com/dongguanting/DPA-RAG上公开。

一句话总结：

DPA-RAG通过引入偏好知识构建和多种查询增强策略，实现了RAG系统中多样化知识偏好的对齐，有效缓解了大型语言模型的幻觉问题。

AI-native Memory: A Pathway from LLMs Towards AGI

发布时间：2024-06-26

作者：Jingbo Shang, Zai Zheng, Xiang Ying, Felix Tao, Mindverse Team

中文摘要：

大型语言模型（LLMs）展现了通往通用人工智能（AGI）的火花。一种观点，尤其是来自一些致力于LLMs的初创公司，认为具有近乎无限上下文长度的LLMs可以实现AGI。然而，他们可能过于乐观地估计了（现有）LLMs的长期上下文能力——（1）近期文献表明，它们的有效上下文长度显著小于其宣称的上下文长度；（2）我们的“在稻草堆中找针”实验进一步证明，从长上下文中同时找到相关信息并进行（简单）推理几乎是不可能的。在本文中，我们设想了一条通过整合（记忆）从LLMs通往AGI的路径。我们相信，AGI应该是一个以LLMs作为核心处理器的系统。除了原始数据外，该系统中的记忆还会存储大量从推理过程中得出的重要结论。与仅处理原始数据的检索增强生成（RAG）相比，这种方法不仅使语义相关的信息更加紧密地连接，而且在查询时简化了复杂的推理。作为中间阶段，记忆可能以自然语言描述的形式存在，这可以直接被用户消费。最终，每个代理/个人都应该拥有自己的大型个人模型，这是一个参数化和压缩所有类型记忆的深度神经网络模型（因此是“AI原生”）的模型，甚至包括那些无法用自然语言描述的记忆。最后，我们讨论了AI原生记忆作为AGI时代（主动）参与、个性化、分发和社交的变革性基础设施的巨大潜力，以及初步解决方案带来的隐私和安全挑战。

一句话总结：

本文提出通过整合记忆将LLMs引向AGI，强调AI原生记忆在AGI时代的重要性和挑战。

Assessing "Implicit" Retrieval Robustness of Large Language Models

发布时间：2024-06-26

作者：Xiaoyu Shen, Rexhina Blloshmi, Dawei Zhu, Jiahuan Pei, Wei Zhang

中文摘要：

检索增强生成作为一种框架，被广泛应用于增强大型语言模型的外部知识。然而，其有效性依赖于模型的检索鲁棒性。如果模型缺乏检索鲁棒性，其性能将受到检索器准确性的限制，当检索到的上下文不相关时，会导致显著的妥协。在本文中，我们评估了各种大型语言模型的“隐式”检索鲁棒性，指导它们直接输出最终答案，而不明确判断检索到的上下文的相关性。我们的发现表明，在金和干扰上下文的混合上进行微调可以显著提高模型对检索不准确的鲁棒性，同时仍然保持其在检索准确时的正确答案提取能力。这表明，大型语言模型可以通过仅从最终答案的端到端监督中学习，隐式地处理相关或不相关的检索上下文。引入显式相关性判断的额外过程可能是多余的，并会破坏端到端的方法。

一句话总结：

本文通过评估大型语言模型的“隐式”检索鲁棒性，发现通过在金和干扰上下文混合上进行微调，可以显著提高模型对检索不准确的鲁棒性，同时保持其在检索准确时的正确答案提取能力。

Poisoned LangChain: Jailbreak LLMs by LangChain

发布时间：2024-06-26

作者：Ziqiu Wang, Jun Liu, Shengkai Zhang, Yang Yang

中文摘要：

随着自然语言处理（NLP）的发展，大型语言模型（LLMs）越来越受欢迎。LLMs正越来越多地融入日常生活，引起了公众对其安全漏洞的担忧。因此，大型语言模型的安全性变得至关重要。目前，针对和防御LLMs的技术正在不断演变。一种重要的攻击方法是越狱攻击，其设计目的是规避模型的安全机制并诱导生成不适当的内容。现有的越狱攻击主要依赖于制作诱导提示以进行直接越狱，这在具有强大过滤和高理解能力的大型模型上效果较差。鉴于对大型语言模型实时能力需求的增加，实时更新和新知识迭代变得至关重要。检索增强生成（RAG），一种补偿模型缺乏新知识的先进技术，正逐渐成为主流。由于RAG使模型能够利用外部知识库，它为越狱攻击提供了新的途径。在本文中，我们首次提出了间接越狱的概念，并通过LangChain实现了检索增强生成。在此基础上，我们进一步设计了一种新的间接越狱攻击方法，称为中毒-LangChain（PLC），它利用中毒的外部知识库与大型语言模型进行交互，从而导致大型模型生成恶意的不合规对话。我们在六个不同的大型语言模型上测试了这种方法，这些模型属于三个主要越狱问题类别。实验表明，PLC在三种不同场景下成功实现了间接越狱攻击，分别实现了88.56%、79.04%和82.69%的成功率。

一句话总结：

本文提出了一种新的间接越狱攻击方法，通过中毒-LangChain利用外部知识库影响大型语言模型，成功诱导生成恶意对话。

Evaluating Quality of Answers for Retrieval-Augmented Generation: A Strong LLM Is All You Need

发布时间：2024-06-26

作者：Yang Wang, Alberto Garcia Hernandez, Roman Kyslyi, Nicholas Kersting

中文摘要：

本文提出了一种名为vRAG-Eval的新型评分系统，用于对检索增强生成（RAG）应用中的答案质量进行全面评估，该系统旨在评估答案的正确性、完整性和诚实性。我们将上述质量方面的评分映射为一个二元分数，表示接受或拒绝的决定，类似于聊天应用中常用的直观的“点赞”或“踩”手势。这种方法适用于需要明确决策意见的事实性商业环境。我们将vRAG-Eval应用于两种大型语言模型（LLMs），评估了由传统RAG应用生成的答案质量。我们将这些评估与人类专家的判断进行比较，发现GPT-4的评估与人类专家的评估高度一致，在接受或拒绝的决定上达到了83%的同意率。这项研究突显了LLMs在封闭领域、封闭式设置中作为可靠评估者的潜力，尤其是在人类评估需要大量资源的情况下。

一句话总结：

本研究通过vRAG-Eval评估系统，证明了大型语言模型在RAG应用中评估答案质量的可靠性和有效性。

Multi-step Inference over Unstructured Data

发布时间：2024-06-26

作者：Aditya Kalyanpur, Kailash Karthik Saravanakumar, Victor Barres, CJ McFate, Lori Moon, Nati Seifu, Maksim Eremeev, Jose Barrera, Abraham Bautista-Castillo, Eric Brown, David Ferrucci

中文摘要：

大型语言模型（LLMs）和生成式人工智能的兴起彻底改变了各个领域的自然语言应用。然而，在医疗、法律和金融等领域，高风险决策任务需要达到精确性、全面性和逻辑一致性，而纯LLM或检索增强生成（RAG）方法往往无法满足这些要求。在Elemental Cognition（EC）公司，我们开发了一个神经符号人工智能平台来解决这些问题。该平台集成了用于知识提取和与鲁棒的符号推理引擎相结合的微调LLMs，以进行逻辑推理、规划和交互式约束求解。本文介绍了Cora，这是一个基于该平台构建的协作研究助手，旨在在高风险领域执行复杂的研究和发现任务。本文讨论了此类领域固有的多步推理挑战，批判了现有基于LLM方法的局限性，并展示了Cora的神经符号方法如何有效地解决这些问题。我们概述了系统架构、知识提取和形式推理的关键算法，并展示了与知名LLM和RAG基线相比，Cora的初步评估结果突显了其优越的性能。

一句话总结：

本文介绍了Elemental Cognition公司开发的神经符号人工智能平台Cora，该平台能够有效解决高风险领域复杂研究任务中的多步推理挑战，并展现出比传统LLM和RAG方法更优越的性能。

Knowledge Graph Enhanced Retrieval-Augmented Generation for Failure Mode and Effects Analysis

发布时间：2024-06-26

作者：Lukas Bahr, Christoph Wehner, Judith Wewerka, José Bittencourt, Ute Schmid, Rüdiger Daub

中文摘要：

失效模式和影响分析（FMEA）是减轻潜在失效的关键工具，尤其是在新产品试制阶段。然而，其有效性往往受到FMEA工具缺乏推理能力的限制，这些工具通常采用表格结构。同时，大型语言模型（LLMs）为在FMEA环境中进行推理的定制数据集微调提供了新的前景。然而，LLMs在需要事实性知识的任务中面临挑战，检索增强生成（RAG）方法旨在填补这一差距。RAG从非参数数据存储中检索信息，并使用语言模型生成响应。基于这一想法，我们提出通过知识图谱（KG）来提升非参数数据存储。通过在RAG框架中增强KG，我们的目标是利用FMEA数据的分析和语义问答能力。本文通过提出一个新的FMEA观察本体、从FMEA KG创建向量嵌入的算法以及KG增强的RAG框架，做出了贡献。我们的方法通过一项人类研究得到验证，并测量了上下文检索的召回率和精确度。

一句话总结：

本文提出了一种基于知识图谱的检索增强生成框架，用于增强FMEA过程中的推理能力，并通过实证研究验证了其有效性。

"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models

发布时间：2024-06-26

作者：Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Song Wang, Jundong Li, Tianlong Chen, Huan Liu

中文摘要：

检索增强生成（RAG）模型通过整合外部知识库，提升了大型语言模型（LLMs）在事实核查和信息搜索等应用中的性能。本文展示了一种安全威胁，即攻击者可以通过向检索数据库注入欺骗性内容来利用这些知识库的开放性，故意改变模型的行为。这种威胁至关重要，因为它反映了现实世界的使用场景，其中RAG系统与公开可访问的知识库（如网络抓取和用户贡献的数据池）进行交互。为了更加现实，我们针对一个攻击者对用户查询、知识库数据和LLM参数一无所知的真实设置。我们证明了通过精心制作的内容上传并获取检索器访问权限，可以成功利用该模型。我们的发现强调了在设计和部署RAG系统时采取安全措施的紧迫需求，以防止潜在的操纵并确保机器生成内容的完整性。

一句话总结：

本文揭示了RAG模型在开放知识库环境下可能面临的安全威胁，并强调了在设计和部署此类系统时实施安全措施的必要性。

Diagnosis Assistant for Liver Cancer Utilizing a Large Language Model with Three Types of Knowledge

发布时间：2024-06-26

作者：Xuzhou Wu, Guangxin Li, Xing Wang, Zeyu Xu, Yingni Wang, Jianming Xian, Xueyu Wang, Gong Li, Kehong Yuan

中文摘要：

肝脏癌的发病率很高，但在基层医疗环境中往往缺乏经验丰富的医生。大型模型和人工智能技术的进步为提供了潜在的帮助。本研究旨在解决肝脏癌诊断模型中的局限性，例如对医学图像理解不足、对肝脏血管考虑不充分以及确保准确医疗信息。我们提出了一种专门的诊断助手，以提高经验不足的医生的诊断能力。我们的框架结合了大型和小型模型，使用优化的小型模型进行精确的患者图像感知。具体来说，一个分割网络通过迭代去除模糊像素来进行肝脏肿瘤分割，一个多尺度、多级差分网络进行肝脏血管分割。这些分割和医疗记录中的特征形成了一个患者的个性化知识库。对于诊断，思维链（Chain of Thought，COT）技术设计出模仿经验丰富的医生思维模式的提示，检索增强生成（Retrieval-Augmented Generation，RAG）技术基于可靠的领域知识和可信案例提供答案。我们的小型模型方法提高了肝脏肿瘤和血管分割性能，从而实现了更准确的信息提取。在医生的评估中，与控制方法相比，大型模型组件在10分制评估中得分超过1分。我们的方法增强了医学图像的语义感知，提高了模糊像素的分类，并优化了小型对象的感知。它考虑了血管位置以进行特定治疗，并通过使用可靠资源模仿经验丰富的医生的思维过程，提高了响应的可信度和可解释性。这种方法得到了医生们的认可，并有助于肝脏癌辅助诊断。

一句话总结：

本研究提出了一种结合大型和小型模型的人工智能诊断助手，旨在提高经验不足医生对肝脏癌的诊断准确性。

AI-native Memory: A Pathway from LLMs Towards AGI

发布时间：2024-06-26

作者：Jingbo Shang, Zai Zheng, Jiale Wei, Xiang Ying, Felix Tao, Mindverse Team

中文摘要：

大型语言模型（LLMs）展示了通往通用人工智能（AGI）的火花。一种观点，尤其是来自一些致力于LLMs的初创公司，认为具有几乎无限上下文长度的LLMs可以实现AGI。然而，他们可能过于乐观地估计了（现有）LLMs的长期上下文能力——（1）近期文献表明，它们的有效上下文长度显著小于其声称的上下文长度；（2）我们的“在稻草堆中找针”实验进一步证明，从长期上下文中同时找到相关信息并进行（简单）推理几乎是不可能的。在本文中，我们设想了一条通过整合（记忆）从LLMs到AGI的路径。我们相信，AGI应该是一个以LLMs作为核心处理器的系统。除了原始数据外，该系统中的记忆还会存储大量从推理过程中得出的重要结论。与仅处理原始数据的检索增强生成（RAG）相比，这种方法不仅使语义相关的信息更加紧密地连接，而且在查询时简化了复杂的推理。作为中间阶段，记忆可能以自然语言描述的形式存在，这可以直接被用户消费。最终，每个代理/个人都应该拥有自己的大型个人模型，这是一个参数化和压缩所有类型记忆的深度神经网络模型（因此称为“AI原生”）。最后，我们讨论了AI原生记忆作为AGI时代（主动）参与、个性化、分发和社交的变革性基础设施的巨大潜力，以及初步解决方案带来的隐私和安全挑战。

一句话总结：

本文提出通过整合记忆将LLMs发展为AGI，强调AI原生记忆在AGI时代的潜在应用及其带来的挑战。

RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems

发布时间：2024-06-25

作者：Robert Friel, Masha Belyi, Atindriyo Sanyal

中文摘要：

检索增强生成（RAG）已成为将特定领域知识融入由大型语言模型（LLMs）驱动的面向用户的聊天应用的标准架构模式。RAG系统的特点包括：（1）一个文档检索器，它查询特定领域的语料库以获取与输入查询相关的上下文信息；（2）一个LLM，它根据提供的查询和上下文生成响应。然而，由于缺乏统一的评估标准和标注数据集，对RAG系统的全面评估仍然是一个挑战。为此，我们引入了RAGBench：第一个包含10万个示例的全面、大规模RAG基准数据集。它涵盖了五个独特的行业特定领域和多种RAG任务类型。RAGBench的示例来源于行业语料库，如用户手册，使其特别适用于行业应用。此外，我们正式化了TRACe评估框架：一套适用于所有RAG领域的可解释和可操作的RAG评估指标。我们将在https://huggingface.co/datasets/rungalileo/ragbench发布标注数据集。RAGBench的可解释标签有助于对RAG系统进行整体评估，从而为生产应用的持续改进提供可操作的反馈。通过广泛的基准测试，我们发现基于LLM的RAG评估方法在RAG评估任务上难以与微调的RoBERTa模型竞争。我们确定了现有方法不足的领域，并建议采用RAGBench与TRACe相结合，以推进RAG评估系统的发展。

一句话总结：

我们推出了RAGBench，一个全面的RAG基准数据集，旨在通过TRACe评估框架提升RAG系统的评估和改进。

Entropy-Based Decoding for Retrieval-Augmented Large Language Models

发布时间：2024-06-25

作者：Zexuan Qiu, Zijing Ou, Bin Wu, Jingjing Li, Aiwei Liu, Irwin King

中文摘要：

本文提出了一种新颖的无监督解码方法，通过熵的考虑来缓解检索增强的大型语言模型（LLMs）在生成响应中受到外部和内部知识源噪声干扰的问题。该方法利用基于熵的文档并行集成解码，优先选择检索文档中的低熵分布，从而增强对上下文相关信息的提取。此外，它还包含一个对比解码机制，该机制将获得的低熵集成分布与模型内部知识在各个层上得到的高熵分布进行对比，确保对外部可靠信息的更大关注。在开放域问答数据集上的大量实验证明了我们方法的优势。

一句话总结：

本文提出了一种基于熵的无监督解码方法，通过优先提取低熵信息并对比内部知识，有效缓解了检索增强的大型语言模型在生成响应中的干扰问题。

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

发布时间：2024-06-25

作者：Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li

中文摘要：

长上下文建模能力受到了广泛关注，这导致了具有超长上下文窗口的大型语言模型（LLMs）的出现。与此同时，用于评估长上下文LLMs的基准也在逐渐完善。然而，现有的基准通过使用无关的噪声文本来人为地扩展测试案例的长度，这与长上下文应用的真实世界场景相去甚远。为了弥合这一差距，我们提出了一种新的长上下文基准Loong，通过扩展的多文档问答（QA）与真实场景相吻合。与典型的文档问答不同，在Loong的测试案例中，每个文档都与最终答案相关，忽略任何文档都可能导致答案失败。此外，Loong引入了四种不同上下文长度的任务：焦点定位、比较、聚类和推理链，以促进对长上下文理解的更真实和全面的评估。大量的实验表明，现有的长上下文语言模型仍然具有相当大的提升潜力。检索增强生成（RAG）表现不佳，这表明Loong可以可靠地评估模型的长上下文建模能力。

一句话总结：

我们提出了一种新的长上下文基准Loong，通过扩展的多文档问答和多种任务类型，更真实地评估了长上下文语言模型的能力。

Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training

发布时间：2024-06-25

作者：Yixuan Wang, Xianzhen Luo, Fuxuan Wei, Yijun Liu, Qingfu Zhu, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che

中文摘要：

现有的推测解码方法通常需要额外的模型结构和训练过程来帮助模型生成草稿标记。这使得加速方法迁移到新模型的成本更高，对设备内存的要求也更高。为了解决这个问题，我们提出了Make Some Noise（MSN）训练框架，作为大型语言模型监督微调阶段的替代方案。该训练方法简单地在模型的输入引入一些噪声，让模型学习去噪任务。这显著提高了模型的并行解码能力，而不影响原始任务的能力。此外，我们还提出了一种基于树的检索增强雅可比（TR-Jacobi）解码策略，以进一步提高MSN模型的推理速度。在通用和代码领域的实验都表明，MSN可以在不牺牲模型性能的情况下，将推理速度提高2.3-2.7倍。在Spec-Bench上，MSN模型也实现了与具有额外模型结构的SOTA模型相当的加速比率。

一句话总结：

MSN训练框架通过引入噪声和基于树的检索增强解码策略，显著提高了大型语言模型的推理速度，同时保持了模型性能。

Leveraging Large Language Models for Software Model Completion: Results from Industrial and Public Datasets

发布时间：2024-06-25

作者：Christof Tinnes, Alisa Welter, Sven Apel

中文摘要：

软件系统的结构和行为建模在软件工程的工业实践中起着至关重要的作用。与其他软件工程工件一样，软件模型也面临着演化的挑战。尽管支持模型员通过模型补全建议来演化软件模型仍然是一个未解决的问题。在本文中，我们探讨了大型语言模型在此任务中的潜力。具体来说，我们提出了一种方法，即检索增强生成（retrieval-augmented generation），该方法利用大型语言模型、模型历史和检索增强生成来实现模型补全。通过在包括一个工业应用、一个公开的开源社区数据集和一个受控的模拟模型仓库集合在内的三个数据集上的实验，我们评估了大型语言模型在检索增强生成下的模型补全潜力。我们发现，大型语言模型确实是一种支持软件模型演化的有前景的技术（在真实世界工业数据上实现了62.30%的语义正确补全，以及高达86.19%的类型正确补全）。大型语言模型在处理那些例子很少、噪声很大或完全没有例子的概念时，其一般推理能力尤其有用。

一句话总结：

本文提出了一种利用大型语言模型和检索增强生成技术来支持软件模型演化的新方法，并通过实验验证了其有效性。

CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation

发布时间：2024-06-24

作者：Abe Bohan Hou, Orion Weller, Guanghui Qin, Eugene Yang, Dawn Lawrie, Nils Holzenberger, Andrew Blair-Stanek, Benjamin Van Durme

中文摘要：

法律专业人士需要撰写依赖于相关先例（即先前案例判决）引用的分析。辅助法律专业人士撰写此类文档的智能系统提供了巨大的好处，但其设计具有挑战性。此类系统需要帮助定位、总结和推理显著先例，以便发挥作用。为了实现此类任务的系统，我们与法律专业人士合作，将一个大型开源法律语料库转化为支持两个重要骨干任务的数据集：信息检索（IR）和检索增强生成（RAG）。该数据集CLERC（案例法评估检索语料库），是为了训练和评估模型在以下能力方面的表现而构建的：（1）为给定的法律分析找到相应的引用；（2）将这些引用的文本（以及先前上下文）汇编成一个连贯的分析，以支持推理目标。我们在CLERC上对最先进的模型进行了基准测试，表明当前的方法仍然存在困难：GPT-4o生成的分析具有最高的ROUGE F分数，但幻觉最多，而零样本IR模型仅达到48.3%的召回率@1000。

一句话总结：

本研究通过构建案例法评估检索语料库，评估了智能系统在辅助法律专业人士撰写分析文档方面的能力，并揭示了当前方法在信息检索和检索增强生成任务上的局限性。

Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track

发布时间：2024-06-24

作者：Ronak Pradeep, Nandan Thakur, Sahel Sharifymoghaddam, Eric Zhang, Ryan Nguyen, Daniel Campos, Nick Craswell, Jimmy Lin

中文摘要：

近年来，现代搜索堆栈已经发展到包括检索增强生成（RAG）系统，这些系统能够将实时数据搜索并整合到大型语言模型（LLMs）中，从而提供信息丰富、有属性、简洁的摘要，与传统搜索范式相比，后者依赖于显示文档的排名列表。鉴于这些最新进展，建立一个可以构建、测试、可视化和系统评估基于RAG的搜索系统的平台至关重要。因此，我们提出了TREC 2024 RAG Track，以促进对RAG系统评估的创新。在我们的工作中，我们概述了将这一赛道变为现实所采取的步骤——我们描述了我们的可重用框架Ragnarök的细节，解释了新MS MARCO V2.1数据集的选择编纂，发布了该赛道的开发主题，并标准化了辅助最终用户的I/O定义。接下来，使用Ragnarök，我们识别并提供了关键工业基准，如OpenAI的GPT-4o或Cohere的Command R+。此外，我们引入了一个基于Web的用户界面，允许通过众包对成对的RAG系统进行基准测试。我们将Ragnarök框架和基准开源，以实现未来RAG系统的一个统一标准。

一句话总结：

本文提出了TREC 2024 RAG Track，旨在通过Ragnarök框架和开源基准，促进对基于检索增强生成的搜索系统的创新评估。

Panza: A Personalized Text Writing Assistant via Data Playback and Local Fine-Tuning

发布时间：2024-06-24

作者：Armand Nicolicioiu, Eugenia Iofinova, Eldar Kurtic, Mahdi Nikdan, Andrei Panferov, Ilia Markov, Nir Shavit, Dan Alistarh

中文摘要：

本文提出了一种名为Panza的新设计，用于电子邮件生成等个人助理的特定用例。Panza可以在普通硬件上本地进行训练和推理，并针对用户的写作风格进行个性化定制。其个性化功能基于一种称为数据回放的新技术，该技术允许我们使用有限的数据微调大型语言模型（LLM），以更好地反映用户的写作风格。通过结合高效的微调和推理方法，Panza可以在有限的资源下完全本地执行，具体而言，它可以在与免费Google Colab实例相同的资源内执行。本文的主要方法论贡献是对评估指标进行了细致的研究，并探讨了不同系统组件选择（例如，使用检索增强生成或不同的微调方法）如何影响系统的性能。

一句话总结：

本文提出了一种名为Panza的个性化电子邮件生成助手，它能够在本地硬件上高效运行，并通过数据回放技术实现用户写作风格的个性化定制。

UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding

发布时间：2024-06-24

作者：Dongyang Li, Taolin Zhang, Jiali Deng, Longtao Huang, Chengyu Wang, Xiaofeng He, Hui Xue

中文摘要：

本文提出了一种无监督伪语义数据增强（UniPSDA）机制，用于跨语言自然语言理解，旨在丰富训练数据而不需要人工干预。具体来说，为了在不同语言间进行语义数据增强，我们提出一个三阶段的顺序聚类过程：在单一语言内部、跨同一语系的多语言之间，以及跨不同语系的语言之间。同时，考虑到在减轻计算负担的同时进行多语言知识融合和上下文感知语义，我们直接用上述学习到的多语言家族知识替换句子的关键成分，这被视为伪语义。通过三种去偏技术进一步优化融合过程，而不引入任何神经网络参数。大量实验表明，我们的模型在包括序列分类、信息提取和问答在内的通用零样本跨语言自然语言理解任务上持续提升性能。

一句话总结：

本文提出了一种基于无监督伪语义数据增强的跨语言自然语言理解模型，通过多语言知识融合和去偏技术显著提升了零样本跨语言自然语言理解任务的表现。

Context-augmented Retrieval: A Novel Framework for Fast Information Retrieval based Response Generation using Large Language Model

发布时间：2024-06-24

作者：Sai Ganesh, Anupam Purwar, Gautam B

中文摘要：

通过在传递给大型语言模型（LLM）的提示中嵌入上下文信息，持续生成高质量答案依赖于信息检索的质量。随着上下文信息库的增长，基于检索增强生成（RAG）的问答（QA）系统的答案/推理质量下降。本研究通过结合经典文本分类与大型语言模型（LLM），实现从向量存储中快速检索信息，并确保检索信息的相关性，从而解决了这一问题。为此，本研究提出了一种新的方法——上下文增强检索（CAR），该方法通过实时分类流入语料库的信息流来对向量数据库进行分区。CAR在生成高质量答案的同时，显著减少了信息检索和答案生成的时间。

一句话总结：

本研究提出了一种上下文增强检索方法（CAR），通过结合文本分类和大型语言模型，有效提高了基于RAG的问答系统的答案质量和检索效率。

On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models

发布时间：2024-06-24

作者：Dongyang Li, Junbing Yan, Taolin Zhang, Chengyu Wang, Xiaofeng He, Longtao Huang, Hui Xue, Jun Huang

中文摘要：

检索增强生成（RAG）在通过检索与用户查询相关的文档来提升大型语言模型（LLMs）的知识能力方面表现出色。然而，RAG仅关注通过无差别地增强查询以检索信息来提高LLMs的响应质量，而对LLMs真正需要哪种类型的知识来更准确地回答原始查询关注不足。在本文中，我们提出，对于LLMs来说，长尾知识对于RAG至关重要，因为LLMs在大规模预训练期间已经记住了常见的世界知识。基于我们的观察，我们为LLMs提出了一种简单但有效的方法来检测长尾知识。具体来说，我们推导出了一种新的生成期望校准误差（GECE）指标，该指标基于统计和语义来衡量知识的“长尾性”。因此，只有当输入查询与长尾知识相关时，我们才检索相关文档并将它们注入模型以修补知识漏洞。实验表明，与现有的RAG管道相比，我们的方法在平均推理时间上实现了超过4倍的速度提升，并在下游任务中实现了一致的性能改进。

一句话总结：

本文提出了一种基于长尾知识检测的RAG方法，通过精确识别长尾知识，显著提升了LLMs在知识检索和生成任务中的性能。

Graph-Augmented LLMs for Personalized Health Insights: A Case Study in Sleep Analysis

发布时间：2024-06-24

作者：Ajan Subramanian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani

中文摘要：

健康监测系统通过持续捕捉生理和行为数据，为预防措施和早期健康干预提供了关键支持，从而彻底改变了现代医疗保健。虽然将此类数据与大型语言模型（LLMs）集成在提供互动健康建议方面显示出潜力，但传统的检索增强生成（RAG）和微调方法往往无法充分利用可穿戴设备中复杂、多维和时序相关的数据。这些传统方法通常由于动态整合和解释不同健康数据流的能力不足，提供的可操作性和个性化健康见解有限。为此，本文介绍了一种图增强LLM框架，旨在显著提高健康见解的个性化和清晰度。该框架利用分层图结构，捕捉患者之间和患者内部的关系，并通过从随机森林模型中提取的动态特征重要性分数丰富LLM提示。通过一项涉及20名大学生在COVID-19封锁期间的睡眠分析案例研究，证明了这种方法的有效性，突显了我们的模型高效生成可操作和个性化健康见解的潜力。我们利用另一个LLM来评估见解的相关性、全面性、可操作性和个性化，以满足有效处理和解释复杂健康数据的模型的关键需求。我们的发现表明，使用我们的框架增强提示在所有4个标准上均取得了显著改进。通过我们的框架，我们可以激发精心设计的、更具思考性的、针对特定患者的响应。

一句话总结：

本文提出了一种图增强LLM框架，通过动态特征重要性分数和分层图结构，显著提高了健康监测数据中个性化健康见解的生成能力。

FS-RAG: A Frame Semantics Based Approach for Improved Factual Accuracy in Large Language Models

发布时间：2024-06-23

作者：Harish Tayyar Madabushi

中文摘要：

本文提出了一种针对检索增强生成（RAG）的新扩展方法，旨在减轻大型语言模型输出中的事实错误。具体来说，我们的方法借鉴了认知语言学理论中的框架语义学，用于索引和检索与帮助大型语言模型回答查询相关的事实信息。我们通过实验展示了该方法在检索有效性和自动生成的框架及其关系的相关性方面的有效性。结果表明，这种基于框架语义学的检索新机制（FS-RAG），旨在改进检索增强生成，是有效的，并为框架语义学理论提供数据驱动的见解提供了潜力。我们提供了我们的程序代码和提示的开放访问。

一句话总结：

本文提出了一种基于框架语义学的检索新机制，旨在改进检索增强生成，以减轻大型语言模型输出中的事实错误。

Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization

发布时间：2024-06-23

作者：Cheng-Yu Hsieh, Yung-Sung Chuang, Chun-Liang Li, Zifeng Wang, Long T. Le, Abhishek Kumar, James Glass, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister

中文摘要：

大型语言模型（LLMs）即使在专门训练以处理长输入上下文的情况下，也难以捕捉到位于输入中间的相关信息。这种现象被称为“迷失在中间”问题。在这项工作中，我们做出了三项贡献。首先，我们旨在理解导致这一现象的因素。为此，我们建立了“迷失在中间”与LLMs内在注意力偏差之间的联系：LLMs表现出U型注意力偏差，即其输入的开始和结束位置的标记无论其相关性如何都会获得更高的注意力。其次，我们通过一种称为“找到在中间”的校准机制来减轻这种位置偏差，该机制允许模型根据其相关性忠实于上下文，即使它们位于中间。第三，我们发现“找到在中间”不仅能够在长上下文中更好地定位相关信息，而且最终导致各种任务中的检索增强生成（RAG）性能得到改善，比现有方法高出多达15个百分点。这些发现为理解LLMs注意力偏差及其潜在后果的未来方向开辟了道路。

一句话总结：

本研究提出了一种名为“找到在中间”的校准机制，有效缓解了大型语言模型在处理长输入上下文时“迷失在中间”的问题，显著提升了检索增强生成任务的表现。

The Potential and Perils of Generative Artificial Intelligence for Quality Improvement and Patient Safety

发布时间：2024-06-23

作者：Laleh Jalilian, Daniel McDuff, Achuta Kadambi

中文摘要：

生成式人工智能（GenAI）通过自动化提升患者护理的质量与安全性，具有改善医疗保健的潜力。GenAI由预训练的基础模型驱动，能够生成复杂内容，这标志着一种范式转变，从目前AI领域中占主导地位的特定任务分类器转向。我们认为，GenAI在医疗保健中的即将应用将通过定义明确、风险低、价值高、应用范围窄的方式实现，使用较小的基础模型自动化护理点的医疗工作流程。这些模型将针对不同的能力和特定应用场景进行微调，并具有提供医学解释、在检索增强框架内引用证据以及利用外部工具的能力。我们将此与用于端到端临床决策的通用、多功能AI模型进行对比，后者可以提高医生在包括安全关键诊断任务在内的表现，但在实施前需要更多的研究。我们认为，在“人机交互”的生成式AI中，通过自动化日常任务可以改善医疗保健的质量与安全性。利用实施科学的原则对于整合将被医疗团队接受的“端到端”GenAI系统至关重要。

一句话总结：

生成式人工智能有望通过自动化医疗工作流程，提高医疗保健的质量与安全性。

Harnessing Knowledge Retrieval with Large Language Models for Clinical Report Error Correction

发布时间：2024-06-21

作者：Jinge Wu, Zhaolong Wu, Abul Hasan, Yunsoo Kim, Jason P. Y. Cheung, Teng Zhang, Honghan Wu

中文摘要：

本研究提出了一种利用大型语言模型（LLMs）和检索增强生成（RAG）技术在临床放射学报告中进行错误校正的方法。所提出的框架采用内部和外部检索机制，从报告和外部知识源中提取相关医疗实体和关系。引入了一个三阶段的推理过程，将任务分解为错误检测、定位和校正子任务，从而提高了系统的可解释性和性能。该方法的有效性通过一个基准数据集进行评估，该数据集通过在现实世界的放射学报告中引入真实错误来创建，并由领域专家指导。实验结果表明，所提出的方法具有显著优势，内部和外部检索的结合显著提高了各种最先进LLMs的错误检测、定位和校正的准确性。这些发现有助于开发更稳健和可靠的临床文档错误校正系统。

一句话总结：

本研究提出了一种基于LLMs和RAG技术的临床放射学报告错误校正方法，通过内部和外部检索机制显著提高了错误检测、定位和校正的准确性。

Pistis-RAG: A Scalable Cascading Framework Towards Trustworthy Retrieval-Augmented Generation

发布时间：2024-06-21

作者：Yu Bai, Yukai Miao, Li Chen, Dan Li, Yanyu Ren, Hongtao Xie, Ce Yang, Xuhui Cai

中文摘要：

在希腊神话中，Pistis象征着诚信、信任和可靠性。受这些原则的启发，Pistis-RAG是一个可扩展的多阶段框架，旨在解决大规模检索增强生成（RAG）系统面临的挑战。该框架包括不同的阶段：匹配、预排序、排序、推理和聚合。每个阶段都有助于缩小搜索空间，优先考虑语义相关的文档，与大型语言模型（LLM）的偏好保持一致，支持复杂的思维链（CoT）方法，并整合来自多个来源的信息。我们的排序阶段通过认识到语义相关性本身可能不会导致生成质量的提高，因为如先前研究所示，少量提示顺序的敏感性，引入了重大创新。这一关键方面在当前的RAG框架中往往被忽视。我们认为，LLM与外部知识排序方法之间的对齐问题与RAG系统中占主导地位的以模型为中心的范式有关。我们提出了一种以内容为中心的方法，强调LLM与外部信息源之间的无缝集成，以优化特定任务的内容转换。我们的新颖排序阶段专门为RAG系统设计，结合了信息检索的原则，同时考虑了LLM偏好和用户反馈中反映的独特商业场景。我们在MMLU基准上模拟了反馈信号，结果实现了9.3%的性能提升。我们的模型和代码将在GitHub上开源。此外，在现实世界、大规模数据上的实验验证了我们框架的可扩展性。

一句话总结：

Pistis-RAG是一个基于希腊神话中Pistis原则的多阶段框架，旨在解决大规模检索增强生成系统中的挑战，并通过优化内容转换和模型与外部信息源的无缝集成来提升生成质量。

Retrieve-Plan-Generation: An Iterative Planning and Answering Framework for Knowledge-Intensive LLM Generation

发布时间：2024-06-21

作者：Yuanjie Lyu, Zihan Niu, Zheyong Xie, Chao Zhang, Tong Xu, Yang Wang, Enhong Chen

中文摘要：

尽管大型语言模型（LLMs）在各种任务上取得了显著进展，但由于其内部知识的局限性，它们往往会产生事实错误。检索增强生成（RAG）通过增强LLMs的外部知识源，提供了一种有希望的解决方案。然而，这些方法可能会被检索文档中的无关段落所误导。由于LLM生成的固有不确定性，输入整个文档可能会引入与主题无关的信息，导致模型偏离中心主题，影响生成内容的关联性。为了解决这些问题，我们提出了检索-计划-生成（RPG）框架。RPG在计划阶段生成计划标记来指导后续生成。在答案阶段，模型根据计划选择相关的细粒度段落，并使用它们进行进一步的答案生成。这个过程会迭代重复直到完成，通过关注特定主题来增强生成相关性。为了有效地实现这个框架，我们利用了一种简单但有效的多任务提示调整方法，使现有的LLMs能够同时处理计划和回答。我们在5个知识密集型生成任务上全面比较了RPG与基线方法，证明了我们方法的有效性。

一句话总结：

我们提出的检索-计划-生成（RPG）框架通过生成计划标记来指导生成过程，有效提高了大型语言模型在知识密集型生成任务中的生成相关性。

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems

发布时间：2024-06-21

作者：Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri

中文摘要：

检索增强生成（RAG）代表了人工智能领域的一项重大进步，它结合了检索阶段和生成阶段，其中生成阶段通常由大型语言模型（LLMs）提供支持。当前RAG的常见实践涉及使用“指令性”LLMs，这些模型通过监督训练进行微调，以增强其遵循指令的能力，并使用最先进的技术与人类偏好保持一致。与普遍看法相反，我们的研究在我们的实验设置下表明，基础模型在RAG任务中平均优于其指令性对应模型20%。这一发现挑战了关于指令性LLMs在RAG应用中优越性的普遍假设。进一步的调查揭示了一个更为复杂的情况，质疑了RAG的基本方面，并建议对这一主题进行更广泛的讨论；或者，正如Fromm所说，“很少仅仅通过查看统计数据就能理解数字的含义”。

一句话总结：

本研究挑战了指令性LLMs在RAG应用中优越性的普遍假设，发现基础模型在特定实验设置下表现更优。

Towards Retrieval Augmented Generation over Large Video Libraries

发布时间：2024-06-21

作者：Yannis Tevissen, Khalil Guetari, Frédéric Petitpont

中文摘要：

视频内容创作者需要高效的工具来重新利用内容，这项任务通常需要复杂的手动或自动搜索。从大量的视频库中制作新的视频仍然是一个挑战。在本文中，我们通过一个可互操作的架构引入了视频库问答（VLQA）任务，该架构将检索增强生成（RAG）应用于视频库。我们提出了一种系统，该系统使用大型语言模型（LLMs）来生成搜索查询，检索由语音和视觉元数据索引的相关视频片段。然后，答案生成模块将用户查询与这些元数据集成，以产生具有特定视频时间戳的响应。这种方法在多媒体内容检索和人工智能辅助视频内容创作方面显示出良好的前景。

一句话总结：

本文提出了一种基于检索增强生成（RAG）的视频库问答系统，利用大型语言模型生成查询并检索相关视频片段，以实现高效的视频内容重新利用。

Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering

发布时间：2024-06-21

作者：Zhengliang Shi, Shuo Zhang, Weiwei Sun, Shen Gao, Pengjie Ren, Zhumin Chen, Zhaochun Ren

中文摘要：

多跳问答（MHQA）任务对大型语言模型（LLMs）来说是一个重大挑战，因为它们需要大量的知识。当前解决方案，如检索增强生成，通常从外部语料库检索潜在文档来读取答案。然而，这种检索后读取范式的性能受到检索器和检索文档中不可避免噪声的限制。为了缓解这些挑战，我们引入了一个新颖的生成后验证（GenGround）框架，该框架将LLMs的参数化知识与外部文档相结合，以解决多跳问题。GenGround使LLMs能够交替两个阶段，直到得出最终答案：（1）提出一个更简单、单跳的问题并直接生成答案；（2）在检索文档中验证问题-答案对，修正答案中的任何错误预测。我们还提出了一种指令性验证蒸馏方法，以将我们的方法推广到更小的模型。在四个数据集上进行的广泛实验展示了我们方法的优势。

一句话总结：

该研究提出了一种名为GenGround的新框架，通过结合大型语言模型和外部文档的知识，有效解决了多跳问答任务中的挑战。

UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis

发布时间：2024-06-21

作者：Yulong Hui, Yao Lu, Huanchen Zhang

中文摘要：

本文探讨了检索增强生成（RAG）技术在提升大型语言模型（LLMs）与外部数据协作方面的应用，但在实际场景中仍存在显著挑战。在学术文献和金融问答等领域，数据通常以HTML或PDF格式的原始文本和表格形式存在，这些数据可能非常冗长且高度无结构。为此，我们提出了一套基准测试套件，即非结构化文档分析（UDA），它包含了2,965份真实世界文档和29,590对专家标注的问答对。我们重新审视了基于LLM和RAG的文档分析解决方案，并评估了多个文档领域和不同查询类型的设计选择和答案质量。我们的评估结果揭示了有趣的现象，并强调了数据解析和检索的重要性。我们希望我们的基准测试能够为现实世界的文档分析应用提供启示。基准测试套件和代码可在https://github.com/qinchuanhui/UDA-Benchmark找到。

一句话总结：

本文提出并评估了非结构化文档分析（UDA）基准测试套件，旨在提升大型语言模型在处理非结构化数据时的性能和答案质量。

Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework

发布时间：2024-06-20

作者：Zackary Rackauckas, Arthur Câmara, Jakub Zavrel

中文摘要：

在自动评估检索增强生成（RAG）问答（QA）系统时，面临的挑战包括特定领域知识中的幻觉问题以及缺乏公司内部任务的黄金标准基准。这导致在英飞凌科技公司产品QA任务背景下评估RAG变体（如RAG-Fusion，RAGF）存在困难。为了解决这些问题，我们提出了一种综合评估框架，该框架利用大型语言模型（LLMs）根据真实用户查询和领域文档生成大量合成查询数据集，使用LLM作为裁判来评估检索到的文档和答案，评估答案的质量，并使用RAGElo的基于Elo的自动化竞赛对不同的检索增强生成（RAG）代理进行排名。对合成查询的随机样本进行LLM作为裁判的评分显示，在相关性、准确性、完整性和精确性方面与领域专家评分存在适度的正相关。尽管RAGF在Elo得分上优于RAG，但与专家标注的显著性分析也显示，RAGF在完整性方面显著优于RAG，但在精确性方面表现不佳。此外，基于MRR@5分数，英飞凌的RAGF助手在文档相关性方面表现出略高的性能。我们发现RAGElo与人类标注者的偏好正相吻合，尽管仍需谨慎对待。最后，基于专家标注，RAGF的方法导致更完整的答案，而根据RAGElo的评估标准，整体答案质量也更好。

一句话总结：

本研究提出了一种利用大型语言模型和自动化评估框架来评估RAG系统，并通过实验证明其在特定领域问答任务中的有效性和优越性。

Relation Extraction with Fine-Tuned Large Language Models in Retrieval Augmented Generation Frameworks

发布时间：2024-06-20

作者：Sefika Efeoglu, Adrian Paschke

中文摘要：

信息提取（IE）对于将非结构化数据转换为结构化格式，如知识图谱（KGs）至关重要。信息提取中的一个关键任务是关系抽取（RE），它识别文本中实体之间的关系。存在多种RE方法，包括监督、无监督、弱监督和基于规则的方法。利用预训练语言模型（PLMs）的最新研究在这一领域取得了显著的成功。在以大型语言模型（LLMs）为主的时代，微调这些模型可以克服与零样本LLM提示式RE方法相关的局限性，特别是在领域适应挑战和识别句子中实体之间的隐含关系方面。这些隐含关系不能轻易地从句子的依存树中提取出来，需要逻辑推理才能准确识别。本研究探讨了微调LLMs的性能及其在基于检索增强（RAG）的RE方法中的集成，以解决在句子层面上识别隐含关系的挑战，尤其是在LLMs在RAG框架中作为生成器时。在TACRED、TACRED-Revisited（TACREV）、Re-TACRED和SemEVAL数据集上的实证评估表明，使用微调LLMs（包括Llama2-7B、Mistral-7B和T5（大型））可以获得显著的性能提升。值得注意的是，我们的方法在SemEVAL数据集上取得了实质性的进步，其中隐含关系较为常见，超过了该数据集上的先前结果。此外，我们的方法在TACRED、TACREV和Re-TACRED上的表现优于先前的工作，证明了在多种评估场景中的卓越性能。

一句话总结：

本研究通过微调大型语言模型并将其集成到基于检索增强的关系抽取方法中，显著提升了隐含关系识别的性能，特别是在领域适应和句子层面的隐含关系识别方面。

CodeRAG-Bench: Can Retrieval Augment Code Generation?

发布时间：2024-06-20

作者：Zora Zhiruo Wang, Akari Asai, Xinyan Velocity Yu, Frank F. Xu, Yiqing Xie, Graham Neubig, Daniel Fried

中文摘要：

尽管语言模型（LMs）在生成代码方面表现出色，但许多程序仅凭其参数化知识难以生成。提供外部上下文，如库文档，可以促进生成准确且功能性的代码。尽管检索增强生成（RAG）在各种文本导向任务中取得了成功，但其改进代码生成的潜力仍被低估。在这项工作中，我们通过系统地、大规模地分析来探讨：在哪些场景下检索可以促进代码生成模型？以及还存在哪些挑战？我们首先创建了一个全面的评估基准，CodeRAG-Bench，包括三个类别的代码生成任务，包括基本编程、开放域和仓库级问题。我们为模型检索上下文聚合了来自五个来源的文档：竞赛解决方案、在线教程、库文档、StackOverflow帖子以及GitHub仓库。我们通过提供从单一或多个来源检索到的上下文来检验CodeRAG-Bench上的顶级模型。尽管在检索到高质量上下文的情况下，在各种设置中最终代码生成取得了显著进步，但我们的分析揭示了改进的空间——当前的检索器在有限词汇重叠的情况下仍难以获取有用的上下文，而生成器在上下文长度有限或无法整合额外上下文的情况下未能改进。我们希望CodeRAG-Bench能够作为一个有效的测试平台，以鼓励进一步开发高级面向代码的RAG方法。

一句话总结：

本研究通过构建CodeRAG-Bench基准，系统地分析了检索增强生成在代码生成中的应用场景和挑战，并揭示了当前检索和生成方法在处理上下文和词汇重叠方面的局限性。

SEC-QA: A Systematic Evaluation Corpus for Financial QA

发布时间：2024-06-20

作者：Viet Dac Lai, Michael Krumdick, Charles Lovering, Varshini Reddy, Craig Schmidt, Chris Tanner

中文摘要：

金融领域经常处理大量对日常运营至关重要的长篇文档。在自动化金融数据分析方面投入了大量的努力。然而，一个持续的挑战，不仅限于金融领域，是准确反映现实世界任务以供模型评估的数据集稀缺。现有的数据集通常受限于规模、上下文或与实际应用的关联性。此外，大型语言模型（LLMs）目前是在数万亿个文本标记上训练的，这限制了模型对新颖数据或文档的访问，这些数据或文档在训练期间尚未遇到，从而限制了模型的客观评估。我们提出了SEC-QA，一个具有两个关键特征的连续数据集生成框架：1) 半自动生成跨越多个长篇金融文档的问答（QA）对，这更好地代表了现实世界的金融场景；2) 能够使用最新的公开文档集合不断刷新数据集，这些文档集合尚未被LLMs处理。我们的实验表明，当前的检索增强生成方法系统地无法回答这些具有挑战性的多文档问题。作为回应，我们引入了一个基于思维程序的问答系统，该系统提高了执行复杂信息检索和定量推理管道的能力，从而提高了问答的准确性。

一句话总结：

SEC-QA通过半自动生成跨越多个长篇金融文档的问答对，并利用最新公开文档集合不断刷新数据集，从而提高金融领域问答系统的准确性和对现实世界的适应性。

Augmenting Query and Passage for Retrieval-Augmented Generation using LLMs for Open-Domain Question Answering

发布时间：2024-06-20

作者：Minsang Kim, Cheoneum Park, Seungjun Baek

中文摘要：

检索增强生成（RAG）作为一种补偿大型语言模型（LLMs）参数化知识的方法，在开放域问答（ODQA）任务中受到了广泛关注。尽管先前的方法侧重于处理检索到的段落以去除无关的上下文，但它们仍然高度依赖于检索段落的质量，如果问题是模糊或复杂的，这种质量可能会下降。在本文中，我们提出了一种简单而有效的方法，称为通过LLMs进行的问题和段落增强，用于开放域问答。我们的方法首先将原始问题分解为多个步骤的子问题。通过用详细的子问题和规划增强原始问题，我们能够使查询更具体地指明需要检索的内容，从而提高检索性能。此外，为了补偿检索到的段落包含分散信息或不同意见的情况，我们通过LLMs用自生成的段落增强检索到的段落，以引导答案提取。实验结果表明，所提出的方法优于先前最先进的方法，并在现有RAG方法上实现了显著的性能提升。

一句话总结：

本文提出了一种基于LLMs的问题和段落增强方法，通过细化问题分解和自生成段落引导，显著提升了开放域问答任务的检索性能。

DIRAS: Efficient LLM-Assisted Annotation of Document Relevance in Retrieval Augmented Generation

发布时间：2024-06-20

作者：Jingwei Ni, Tobias Schimanski, Meihong Lin, Mrinmaya Sachan, Elliott Ash, Markus Leippold

中文摘要：

检索增强生成（RAG）被广泛用于在特定领域的文档上对查询进行定位。但是，RAG的实现是否会遗漏重要信息或过度包含无关信息？为了缓解这些担忧，有必要对特定领域的基准进行标注以评估信息检索（IR）性能，因为相关性的定义在查询和领域之间是不同的。此外，这样的基准应该以成本效益的方式标注，以避免标注选择偏差。在本文中，我们提出了DIRAS（具有可扩展性的特定领域信息检索标注），这是一个无需人工标注的方案，用于微调开源的LLMs以使用校准的相关概率标注相关性标签。广泛的评估表明，DIRAS微调的模型在标注和排名未见过的（查询，文档）对方面达到了GPT-4级别的性能，并且有助于现实世界的RAG开发。

一句话总结：

本文提出的DIRAS方案通过微调LLMs实现了高效且准确的特定领域信息检索标注，为RAG的实际应用提供了有力支持。

Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data

发布时间：2024-06-20

作者：Shenglai Zeng, Jiankun Zhang, Pengfei He, Jie Ren, Tianqi Zheng, Hanqing Lu, Han Xu, Hui Liu, Yue Xing, Jiliang Tang

中文摘要：

检索增强生成（RAG）通过整合从外部知识源检索的相关信息来增强语言模型的输出。然而，当检索过程涉及私有数据时，RAG系统可能会面临严重的隐私风险，可能导致敏感信息的泄露。为了解决这个问题，我们提出使用合成数据作为隐私保护替代检索数据的方案。我们提出了SAGE，一种新颖的两阶段合成数据生成范式。在第一阶段，我们采用基于属性的提取和生成方法来保留原始数据中的关键上下文信息。在第二阶段，我们通过基于代理的迭代优化过程进一步增强了合成数据的隐私属性。广泛的实验表明，使用我们的合成数据作为检索上下文，在实现与使用原始数据相当性能的同时，显著降低了隐私风险。我们的工作是研究为RAG生成高效用和隐私保护合成数据可能性的第一步，为RAG系统在各个领域的安全应用开辟了新的机会。

一句话总结：

本研究提出了一种基于合成数据的隐私保护方法，以降低检索增强生成（RAG）系统在处理私有数据时的隐私风险。

ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights

发布时间：2024-06-20

作者：Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki

中文摘要：

大规模生成语言和视觉语言模型（LLMs和VLMs）在少样本情境学习中的决策和指令遵循方面表现出色。然而，它们需要包含高质量示例演示以纳入其情境窗口。在本工作中，我们提出问题：LLMs和VLMs能否从通用、次优演示中生成自己的提示示例？我们提出了情境抽象学习（ICAL）方法，该方法从次优演示和人类反馈中构建多模态经验洞察的记忆。给定一个新领域的噪声演示，VLMs通过固定无效动作并标注认知抽象（如任务关系、对象状态变化、时间子目标和任务理解）将轨迹抽象为通用程序。这些抽象通过人类反馈进行交互式精炼和适应，同时代理尝试在类似环境中执行轨迹。作为提示中的示例，这些抽象显著提高了检索增强的LLM和VLM代理的决策能力。我们的ICAL代理在TEACh的基于对话的指令遵循、VisualWebArena的多模态网络代理和Ego4D的动作预测方面超越了现有技术。在TEACh中，我们实现了目标条件成功率的12.6%提升。在VisualWebArena中，我们的任务成功率从14.3%提高到22.7%。在Ego4D动作预测中，我们超过了少样本GPT-4V，并保持了与监督模型的竞争力。我们展示了微调我们的检索增强情境代理可以获得额外的改进。我们的方法显著减少了依赖于专家制作的示例，并在缺乏此类洞察的动作计划中的一致性优于情境学习。

一句话总结：

本文提出了一种名为情境抽象学习（ICAL）的方法，能够使LLMs和VLMs从次优演示中生成提示示例，从而显著提高其在决策和指令遵循任务中的性能。

StackRAG Agent: Improving Developer Answers with Retrieval-Augmented Generation

发布时间：2024-06-19

作者：Davit Abrahamyan, Fatemeh H. Fard

中文摘要：

开发者花费大量时间寻找与问题相关的信息。Stack Overflow一直是主要的资源，随着大型语言模型（LLMs）的出现，如ChatGPT等生成模型被频繁使用。然而，单独使用任何一个都存在问题。正如许多研究人员开发的工具所展示的那样，寻找答案既耗时又繁琐。另一方面，使用LLMs并不可靠，因为它们可能会产生不相关或不准确的信息（即幻觉）。在这项工作中，我们提出了StackRAG，这是一种基于LLMs的检索增强多智能体生成工具，它结合了两个世界：从SO聚合知识以提高生成答案的可靠性。初步评估显示，生成的答案是正确的、准确的、相关的和有用的。

一句话总结：

StackRAG通过结合Stack Overflow的知识和大型语言模型的能力，提高了生成答案的可靠性和相关性。

WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia

发布时间：2024-06-19

作者：Yufang Hou, Alessandra Pascale, Javier Carnerero-Cano, Tigran Tchrakian, Radu Marinescu, Elizabeth Daly, Inkit Padhi, Prasanna Sattigeri

中文摘要：

检索增强生成（RAG）已成为缓解大型语言模型（LLMs）局限性的一个有希望的解决方案，例如幻觉和过时信息。然而，LLMs如何处理由不同检索到的段落引起的知识冲突尚不清楚，尤其是当这些段落来自同一来源且具有同等可信度时。在这项工作中，我们对LLMs生成的答案进行了全面评估，这些答案基于维基百科中的不同答案，维基百科被广泛认为是最多LLMs的高质量预训练资源。具体来说，我们引入了WikiContradict，这是一个包含253个高质量、人工标注实例的基准，旨在评估LLMs在添加包含现实世界知识冲突的检索段落时的性能。我们在不同的问答场景下对各种封闭和开源LLMs进行了基准测试，包括单段落RAG和双段落RAG。通过对WikiContradict实例子集的严格人工评估，包括5个LLMs和超过3,500次判断，我们揭示了这些模型的行为和局限性。例如，当提供包含相互矛盾事实的两个段落时，所有模型都难以生成准确反映上下文冲突性质的答案，尤其是对于需要推理的隐含冲突。由于人工评估成本高昂，我们还引入了一个自动模型，该模型使用强大的开源语言模型来估计LLMs的性能，实现了0.8的F分数。使用这个自动指标，我们评估了所有WikiContradict实例中来自7个LLMs的超过1,500个答案。为了促进未来的工作，我们将WikiContradict发布在：https://ibm.biz/wikicontradict。

一句话总结：

本研究通过WikiContradict基准评估了LLMs在处理知识冲突时的性能，并引入了自动评估模型以降低人工评估成本。

FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering

发布时间：2024-06-19

作者：Tianchi Cai, Zhiwen Tan, Xierui Song, Tao Sun, Jiyan Jiang, Yunqi Xu, Yinger Zhang, Jinjie Gu

中文摘要：

检索增强生成（RAG）因其能够利用搜索引擎来提升长形式问答（LFQA）质量的能力，在问答任务中变得普遍。尽管各种开源方法和如Bing Chat等网络增强的商业系统已经出现，但两个关键问题仍未解决，即生成的长形式答案缺乏事实性和清晰的逻辑。在本文中，我们通过对网络增强的LFQA中的答案生成进行系统研究来解决这些问题。具体来说，我们首先提出了一种新颖的提纲增强生成器，以在生成多方面答案时实现清晰的逻辑，并据此构建了两个数据集。然后，我们提出了一种基于精心设计的双细粒度强化学习与人类反馈（RLHF）框架的事实性优化方法，该框架包含不同粒度级别的自动评估和奖励建模。我们的通用框架包括传统的细粒度RLHF方法作为特例。广泛的实验验证了我们的提出的事实性优化RAG（FoRAG）方法在英语和中文基准测试中的优越性。特别是，当将我们的方法应用于Llama2-7B-chat时，所得到的模型FoRAG-L-7B在三个常用指标（即连贯性、有用性和事实性）方面优于WebGPT-175B，而参数数量要小得多（仅为WebGPT-175B的1/24）。我们的数据集和模型已公开发布，以提高可重复性：https://huggingface.co/forag。

一句话总结：

本文提出了一种事实性优化的检索增强生成方法，显著提升了长形式问答的答案质量，同时保持了较小的模型规模。

Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation

发布时间：2024-06-19

作者：Di Wu, Jia-Chen Gu, Fan Yin, Nanyun Peng, Kai-Wei Chang

中文摘要：

检索增强语言模型（Retrieval-augmented language models，RALMs）在知识密集型任务中表现出强大的性能和广泛的应用性。然而，由于RALMs容易生成不忠实输出，包括无根据的信息或与检索上下文相矛盾的内容，因此其可信度引起了重大的担忧。本文提出了一种名为SynCheck的轻量级监控器，该监控器利用细粒度解码动态，包括序列可能性、不确定性量化、上下文影响和语义对齐，同步检测不忠实的句子。通过整合可高效测量且互补的信号，SynCheck实现了准确和及时的反馈及干预，在六个长文本检索增强生成任务中检测忠实度错误的AUROC达到了0.85，比之前最佳方法提高了4%。利用SynCheck，我们进一步引入了一种名为FOD的忠实度导向解码算法，该算法通过束搜索指导长文本检索增强生成。实证结果表明，FOD在忠实度方面显著优于传统的策略，如弃权、重新排序或对比解码，在六个数据集上实现了超过10%的提升。

一句话总结：

本文提出了一种名为SynCheck的轻量级监控器，用于检测检索增强语言模型中的不忠实输出，并通过引入FOD算法显著提升了忠实度。

Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation

发布时间：2024-06-19

作者：Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza

中文摘要：

确保模型答案的可验证性是问答（QA）领域中检索增强生成（RAG）的一个基本挑战。最近，自我引用提示被提出，以使大型语言模型（LLMs）在生成答案的同时生成支持文档的引用。然而，自我引用的LLMs往往难以匹配所需的格式，引用不存在的来源，并且在生成过程中未能忠实反映LLMs的上下文使用。在这项工作中，我们提出了MIRAGE（基于模型内部结构的RAG解释）——一种使用模型内部结构进行忠实答案归因的即插即用方法。MIRAGE通过显著性方法检测上下文敏感的答案标记，并将它们与通过检索文档对预测有贡献的文档配对。我们在一个多语言抽取式QA数据集上评估了我们的方法，发现与人类答案归因高度一致。在开放式问答中，MIRAGE实现了与自我引用相当的引用质量和效率，同时允许对归因参数进行更细致的控制。我们的定性评估突出了MIRAGE归因的忠实性，并强调了模型内部结构在RAG答案归因中的潜在应用前景。

一句话总结：

MIRAGE通过利用模型内部结构，实现了在检索增强生成中更忠实、更有效的答案归因。

InstructRAG: Instructing Retrieval-Augmented Generation with Explicit Denoising

发布时间：2024-06-19

作者：Zhepei Wei, Wei-Lin Chen, Yu Meng

中文摘要：

检索增强生成（RAG）在提高语言模型（LMs）的准确性和事实性方面展现出巨大的潜力。然而，不完善的检索器或噪声语料库可能会向检索内容引入误导性甚至错误的信息，这对生成质量构成了重大挑战。现有的RAG方法通常通过直接预测最终答案来应对这一挑战，尽管输入可能存在噪声，但导致了一个难以解释和验证的隐式去噪过程。另一方面，获取显式去噪监督通常成本高昂，需要大量的人力。在这项工作中，我们提出了InstructRAG，其中LMs通过自我合成的理由显式地学习去噪过程——首先，我们指导LM解释如何从检索文档中推导出真实答案。然后，这些理由可以用作显式去噪的情境学习演示，或者作为监督微调数据来训练模型。与标准RAG方法相比，InstructRAG不需要额外的监督，允许更容易地验证预测答案，并有效地提高生成准确性。实验表明，InstructRAG在无训练和可训练场景中均优于现有的RAG方法，平均而言，在五个知识密集型基准测试中相对于最佳基线方法实现了8.3%的相对改进。广泛的分析表明，InstructRAG能够很好地扩展到检索文档数量的增加，并在域外数据集中也表现出一致的鲁棒去噪能力，证明了其强大的泛化能力。

一句话总结：

InstructRAG通过自我合成的理由，使语言模型显式学习去噪过程，从而有效提高了检索增强生成的准确性和泛化能力。

Improving Zero-shot LLM Re-Ranker with Risk Minimization

发布时间：2024-06-19

作者：Xiaowei Yuan, Zhao Yang, Yequan Wang, Jun Zhao, Kang Liu

中文摘要：

在检索增强生成（RAG）系统中，高级大型语言模型（LLMs）以无监督的方式成为有效的查询似然模型（QLMs），它们根据文档内容生成查询的概率来重新排序文档。然而，直接提示LLMs来近似QLMs本质上是有偏差的，其中估计的分布可能与实际的文档特定分布相去甚远。在本研究中，我们引入了一个新颖的框架$\mathrm{UR^3}$，该框架利用贝叶斯决策理论来量化并减轻这种估计偏差。具体来说，$\mathrm{UR^3}$将问题重新表述为最大化文档生成的概率，从而在统一的风险最小化目标下协调查询和文档生成概率的优化。我们的实验结果表明，$\mathrm{UR^3}$显著提高了重新排序的效果，尤其是在提高Top-1准确率方面。它通过使用更少的输入文档实现了更高的准确性，从而有利于问答（QA）任务。

一句话总结：

本研究提出的$\mathrm{UR^3}$框架通过贝叶斯决策理论有效减轻了RAG系统中LLMs近似QLMs的估计偏差，显著提升了文档重新排序的准确率。

R^2AG: Incorporating Retrieval Information into Retrieval Augmented Generation

发布时间：2024-06-19

作者：Fuda Ye, Shuangyin Li, Yongqi Zhang, Lei Chen

中文摘要：

检索增强生成（RAG）已被应用于许多场景，通过检索器提供的外部文档来增强大型语言模型（LLMs）。然而，由于LLMs和检索器在训练目标和架构上的差异，它们之间存在语义差距。这种不匹配迫使LLMs被动接受检索器提供的文档，导致在生成过程中出现理解困难，LLMs需要承担使用其固有知识区分这些文档的任务。本文提出了一种新的增强RAG框架R$^2$AG，通过将检索信息纳入检索增强生成来填补这一差距。具体来说，R$^2$AG利用检索器的细微特征，并采用R$^2$-Former来捕捉检索信息。然后，设计了一种检索感知提示策略，将检索信息整合到LLMs的生成过程中。值得注意的是，R$^2$AG适用于低源场景，其中LLMs和检索器被冻结。在五个数据集上进行的广泛实验验证了R$^2$AG的有效性、鲁棒性和效率。我们的分析表明，检索信息作为锚点，有助于LLMs在生成过程中的理解，从而填补了语义差距。

一句话总结：

本文提出的R$^2$AG框架通过将检索信息融入检索增强生成，有效填补了LLMs与检索器之间的语义差距，提高了生成过程的理解性和效率。

Multi-Meta-RAG: Improving RAG for Multi-Hop Queries using Database Filtering with LLM-Extracted Metadata

发布时间：2024-06-19

作者：Mykhailo Poliakov, Nadiya Shvai

中文摘要：

检索增强生成（RAG）能够从外部知识源检索相关信息，并允许大型语言模型（LLMs）回答关于先前未见文档集合的查询。然而，研究表明，传统的RAG应用在回答需要检索和推理多个支持证据元素的多跳问题方面表现不佳。我们引入了一种名为多元元-RAG的新方法，它使用数据库过滤和LLM提取的元数据来改进从各种来源选择与问题相关的相关文档的RAG选择。虽然数据库过滤特定于特定领域和格式的问题集，但我们发现多元元-RAG在MultiHop-RAG基准测试上的结果得到了显著提升。代码可在https://github.com/mxpoliakov/Multi-Meta-RAG获取。

一句话总结：

多元元-RAG通过数据库过滤和LLM元数据提取，显著提升了RAG在回答多跳问题上的性能。

Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation

发布时间：2024-06-19

作者：Kaikai An, Fangkai Yang, Liqun Li, Junting Lu, Sitao Cheng, Lu Wang, Pu Zhao, Lele Cao, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

中文摘要：

当前利用检索增强生成（Retrieval Augmented Generation，RAG）的问答系统在回答事实性问题方面表现良好，但在处理非事实性问题，尤其是需要详细步骤和解释的如何查询方面面临挑战。在本文中，我们引入了Thread，这是一种新颖的数据组织范式，它根据文档之间的相互连接性将文档转化为逻辑单元。在开放域和工业场景中的大量实验表明，Thread在基于RAG的问答系统中优于现有的数据组织范式，显著提高了如何查询的处理能力。

一句话总结：

Thread是一种新型的数据组织范式，能够显著提高基于RAG的问答系统在处理如何查询方面的性能。

InstructRAG: Instructing Retrieval-Augmented Generation via Self-Synthesized Rationales

发布时间：2024-06-19

作者：Zhepei Wei, Wei-Lin Chen, Yu Meng

中文摘要：

检索增强生成（RAG）在提高语言模型（LM）的准确性和事实性方面展现出巨大的潜力。然而，不完善的检索器或噪声语料库可能会向检索内容引入误导性甚至错误的信息，这对生成质量构成了重大挑战。现有的RAG方法通常通过直接预测最终答案来应对这一挑战，尽管输入可能存在噪声，但导致了一个难以解释和验证的隐式去噪过程。另一方面，获取显式去噪监督通常成本高昂，需要大量的人力。在这项工作中，我们提出了InstructRAG，其中LM通过自我合成的理由显式地学习去噪过程——首先，我们指导LM解释如何从检索文档中推导出真实答案。然后，这些理由可以用作显式去噪的情境学习演示，或者作为监督微调数据来训练模型。与标准RAG方法相比，InstructRAG不需要额外的监督，允许更容易地验证预测答案，并有效地提高生成准确性。实验表明，InstructRAG在无训练和可训练场景下都持续优于现有的RAG方法，平均而言，在五个知识密集型基准测试中相对于最佳基线方法提高了8.3%。广泛的分析表明，InstructRAG能够很好地扩展到检索文档数量的增加，并在域外数据集中持续展现出稳健的去噪能力，证明了其强大的泛化能力。

一句话总结：

InstructRAG通过自我合成的理由显式学习去噪过程，有效提高了语言模型的生成准确性，并在多个基准测试中优于现有RAG方法。

Multi-Meta-RAG: Improving RAG for Multi-Hop Queries using Database Filtering with LLM-Extracted Metadata

发布时间：2024-06-19

作者：Mykhailo Poliakov, Nadiya Shvai

中文摘要：

检索增强生成（RAG）能够从外部知识源检索相关信息，并允许大型语言模型（LLMs）回答关于先前未见文档集合的查询。然而，研究表明，传统的RAG应用在回答需要检索和推理多个支持证据元素的多跳问题方面表现不佳。我们介绍了一种名为多元元-RAG的新方法，它使用数据库过滤和LLM提取的元数据来改进从各种来源选择与问题相关的相关文档的RAG选择。虽然数据库过滤特定于特定领域和格式的问题集，但我们发现多元元-RAG在MultiHop-RAG基准测试上的结果得到了显著提升。代码可在https://github.com/mxpoliakov/Multi-Meta-RAG上找到。

一句话总结：

多元元-RAG通过数据库过滤和LLM元数据提取，显著提升了RAG在回答多跳问题上的性能。

Think-then-Act: A Dual-Angle Evaluated Retrieval-Augmented Generation

发布时间：2024-06-18

作者：Yige Shen, Hao Jiang, Hua Qu, Jihong Zhao

中文摘要：

尽管大型语言模型（LLMs）具有令人印象深刻的性能，但它们通常面临诸如时间错位和生成幻觉内容等挑战。通过检索机制增强LLMs以从外部来源获取相关信息，提供了一种有前景的解决方案。受“三思而后行”这句谚语的启发，我们提出了一种双角度评估的检索增强生成框架——Think-then-Act。与之前那些不加区分地重写查询或无论是否必要都进行检索的方法不同，或者是在决定进行额外检索之前生成临时响应，从而增加模型生成成本的方法，我们的框架采用了两阶段过程：（i）评估输入查询的清晰度和完整性，以确定是否需要重写；（ii）评估模型回答查询的能力，并决定是否需要额外的检索。在五个数据集上的实验结果表明，Think-then-Act框架显著提高了性能。与现有基线相比，我们的框架在准确性和效率方面表现出显著改进，并在英语和非英语环境中都表现出良好的性能。消融研究验证了最优模型置信度阈值，突出了我们方法在资源优化方面的好处。

一句话总结：

Think-then-Act框架通过双角度评估和检索增强，显著提升了大型语言模型的生成性能和效率。

From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

发布时间：2024-06-18

作者：Hitesh Wadhwa, Rahul Seetharaman, Somyaa Aggarwal, Reshmi Ghosh, Samyadeep Basu, Soundararajan Srinivasan, Wenlong Zhao, Shreyas Chaudhari, Ehsan Aghazadeh

中文摘要：

检索增强生成（RAG）通过利用外部上下文来增强对用户提示的响应，丰富了语言模型进行推理的能力。由于在搜索、问答和聊天机器人等语言模型的各种应用中具有实际应用价值，这种方法越来越受欢迎。然而，这种方法的精确工作原理并不清楚。在本文中，我们通过机制性地检查RAG管道，突出了语言模型在回答问题时倾向于仅利用上下文信息，而最小化对其参数记忆的依赖。我们通过以下方式探究语言模型中的这种机制行为：（i）因果中介分析表明，在回答问题时参数记忆的使用最少；（ii）注意力贡献和淘汰实验表明，最后标记残差流并没有从问题中的主题标记中丰富，而是从上下文中的其他信息标记中丰富。我们发现这种明显的捷径行为在LLaMa和Phi系列模型中都存在。

一句话总结：

本文揭示了检索增强生成（RAG）中语言模型倾向于依赖上下文信息而非参数记忆进行推理的机制行为。

Free to play: UN Trade and Development's experience with developing its own open-source Retrieval Augmented Generation Large Language Model application

发布时间：2024-06-18

作者：Daniel Hopp

中文摘要：

生成式人工智能（AI），尤其是大型语言模型（LLMs），自2022年11月ChatGPT的生成预训练Transformer（GPT）-3.5模型向公众发布以来，其受欢迎程度和关注度急剧上升。由于这些通用模型的力量以及它们以自然语言进行交流的能力，它们可以在包括官方统计和国际组织工作在内的多个领域发挥作用。然而，面对这样一项新颖且看似复杂的技术，人们可能会觉得生成式AI似乎是一种发生在组织身上的事情，是人们可以谈论但无法理解、可以评论但无法贡献的事情。此外，采用和运营专有解决方案的成本可能既不确定又很高，这对经常受成本限制的国际组织来说是一个障碍。面对这些挑战，联合国贸易和发展会议（UNCTAD）通过其全球危机应对小组（GCRG），探索并开发了其自己的开源检索增强生成（RAG）LLM应用程序。RAG使LLMs对组织的领域和工作更加了解和有用。开发内部解决方案既有优点也有缺点，优点包括成本、灵活性和培养机构知识。缺点包括时间和技能投资、差距以及应用抛光和力量。用于生成应用程序的三个库——用于文档处理和统计分析的nlp_pipeline、用于运行本地RAG LLM的local_rag_llm以及用于用户界面的streamlit_rag——均可在PyPI和GitHub上公开获取，并附带Dockerfile。还有一个名为local_llm_finetune的第四个库，可用于微调现有的LLMs，然后可以在应用程序中使用。

一句话总结：

联合国贸易和发展会议通过开发开源的RAG LLM应用程序，探索了在官方统计和国际组织中应用生成式人工智能的潜力。

RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation

发布时间：2024-06-18

作者：Shuting Wang, Xin Yu, Mang Wang, Weipeng Chen, Yutao Zhu, Zhicheng Dou

中文摘要：

检索增强生成（RAG）有效地解决了大型语言模型中静态知识和幻觉问题。现有研究大多集中在具有明确用户意图和简洁答案的问题场景。然而，用户提出广泛、开放式查询，并希望得到丰富和长篇的答案，涵盖多个相关方面的情况很普遍。为了解决这个重要但尚未充分探索的问题，我们提出了一种新的RAG框架，即RichRAG。它包括一个子方面探索器，用于识别输入问题的潜在子方面；一个多角度检索器，用于构建与这些子方面相关的多样化外部文档的候选池；以及一个生成式列表排序器，这是为最终生成器提供前k个最有价值文档的关键模块。这些排序文档充分覆盖了各种查询方面，并了解生成器的偏好，从而激励它为用户提供丰富和全面的响应。我们排序器的训练包括一个监督微调阶段，以确保文档的基本覆盖，以及一个强化学习阶段，以使下游LLM的偏好与文档排序相一致。在两个公开数据集上的实验结果表明，我们的框架有效地、高效地为用户提供全面和令人满意的响应。

一句话总结：

RichRAG通过子方面探索、多角度检索和生成式列表排序，有效解决了大型语言模型在处理广泛开放式查询时的静态知识和幻觉问题。

Unified Active Retrieval for Retrieval Augmented Generation

发布时间：2024-06-18

作者：Qinyuan Cheng, Xiaonan Li, Shimin Li, Qin Zhu, Zhangyue Yin, Yunfan Shao, Linyang Li, Tianxiang Sun, Hang Yan, Xipeng Qiu

中文摘要：

在检索增强生成（RAG）中，检索并不总是有帮助的，将其应用于每个指令都是次优的。因此，确定是否进行检索对于RAG至关重要，这通常被称为主动检索。然而，现有的主动检索方法面临两个挑战：1. 它们通常依赖于单一标准，这难以处理各种类型的指令。2. 它们依赖于专业化和高度差异化的程序，因此将它们结合起来使得RAG系统更加复杂，并导致更高的响应延迟。为了解决这些挑战，我们提出了统一主动检索（UAR）。UAR包含四个正交标准，并将它们转化为即插即用的分类任务，以实现多方面的检索时机判断，且额外的推理成本可忽略不计。我们进一步引入了统一主动检索标准（UAR-Criteria），它通过标准化程序设计来处理各种主动检索场景。在四种代表性用户指令类型的实验中表明，UAR在检索时机判断和下游任务性能方面显著优于现有工作，这显示了UAR的有效性和其对下游任务的帮助。

一句话总结：

我们提出的统一主动检索（UAR）方法通过多标准分类任务，有效提高了检索增强生成（RAG）系统的检索时机判断和下游任务性能。

PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

发布时间：2024-06-18

作者：Myeonghwa Lee, Seonho An, Min-Soo Kim

中文摘要：

本文研究利用大型语言模型（LLMs）作为解决需要复杂数据分析的决策问题的解决方案。我们将决策问答（Decision QA）定义为针对决策问题$Q$、业务规则$R$和数据库$D$，回答最佳决策$d_{best}$的任务。由于目前没有可以检验决策问答的基准，我们提出了决策问答基准（DQA），它包含两个场景：定位（Locating）和构建（Building），这两个场景由两款具有与决策问答几乎相同目标的视频游戏（《欧陆风云IV》和《维多利亚3》）构建而成。为了有效地解决决策问答问题，我们还提出了一种新的RAG技术，称为迭代计划-检索增强生成（PlanRAG）。基于PlanRAG的LM首先生成决策计划，然后检索器生成数据分析的查询。所提出的方法在定位场景中比最先进的迭代RAG方法提高了15.8%，在构建场景中提高了7.4%。我们已在https://github.com/myeon9h/PlanRAG上发布了我们的代码和基准。

一句话总结：

本文提出了一种基于PlanRAG的决策问答方法，通过迭代计划和检索增强生成，显著提升了决策问答的性能。

Retrieval Meets Reasoning: Dynamic In-Context Editing for Long-Text Understanding

发布时间：2024-06-18

作者：Weizhi Fei, Xueyan Niu, Guoqing Xie, Yanhua Zhang, Bo Bai, Lei Deng, Wei Han

中文摘要：

当前的大型语言模型（LLMs）由于预定义的上下文长度限制，其在大规模文本上下文中的多跳推理能力受到阻碍。尽管现有的技术如检索增强生成（RAG）试图通过获取外部信息来弥合这一差距，但当直接答案不易获得时，它们的表现仍然不足。我们提出了一种新颖的方法，该方法通过动态上下文编辑重新构想信息检索，灵感来源于最近在知识编辑方面的突破。通过将长文本上下文视为可塑的外部知识，我们的方法交互式地收集和整合相关信息，从而使得LLMs能够执行复杂的推理步骤。实验结果表明，我们的方法有效地赋予了上下文受限的LLMs，如Llama2，进行多跳推理的能力，并提高了性能，超过了最先进的上下文窗口外推方法，甚至与更先进的商业长文本模型相比也具有竞争力。我们的交互式方法不仅增强了推理能力，还降低了相关的训练和计算成本，使其成为增强LLMs在广泛上下文中推理能力的实用解决方案。

一句话总结：

该方法通过动态上下文编辑和交互式信息整合，有效提升了上下文受限的大型语言模型的多跳推理能力。

发布时间：2024-06-18

作者：Lin Ai, Tharindu Kumarage, Amrita Bhattacharjee, Zizhou Liu, Zheng Hui, Michael Davinroy, James Cook, Laura Cassani, Kirill Trapeznikov, Matthias Kirchner, Arslan Basharat, Anthony Hoogs, Joshua Garland, Huan Liu, Julia Hirschberg

中文摘要：

随着大型语言模型（LLMs）的广泛应用，检测和减轻数字欺骗的挑战也随之增加，因为这些模型可以模仿人类的对话模式，并促进基于聊天的社会工程（CSE）攻击。本研究探讨了LLMs在CSE威胁中的双重能力，即作为攻击的促进者和防御者。我们开发了一个新的数据集SEConvo，模拟学术和招聘环境中的CSE场景，旨在研究LLMs在这些情况下的利用方式。我们的研究发现，尽管现成的LLMs可以生成高质量的CSE内容，但它们的检测能力并不理想，导致防御成本增加。为此，我们提出了ConvoSentinel，一个模块化的防御管道，它提高了消息和对话层面的检测能力，提供了更高的适应性和成本效益。ConvoSentinel中的检索增强模块通过将消息与类似对话的数据库进行比较，增强了CSE检测的所有阶段。我们的研究强调了在网络安全中利用LLMs的先进策略的必要性。

一句话总结：

本研究提出了一种名为ConvoSentinel的防御管道，旨在提高大型语言模型在检测和减轻基于聊天的社会工程攻击方面的能力。

Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents

发布时间：2024-06-18

作者：Zehao Wang, Dong Jae Kim, Tse-Hsun Chen

中文摘要：

配置设置对于调整软件行为以满足特定性能要求至关重要。然而，由于可能设置的数量庞大且复杂，错误的配置普遍存在，且识别影响系统性能的配置具有挑战性。在本工作中，我们提出了PerfSense，这是一个轻量级的框架，它利用大型语言模型（LLMs）以最小的开销高效地识别性能敏感的配置。PerfSense采用LLM代理，通过使用高级提示技术，如提示链和检索增强生成（RAG），来模拟开发人员和性能工程师之间的交互。我们对七个开源Java系统的评估表明，PerfSense在分类性能敏感配置方面实现了平均64.77%的准确率，优于我们的LLM基线（50.36%）和之前最先进的方法（61.75%）。值得注意的是，我们的提示链技术将召回率提高了10%至30%，同时保持了相似的精确度水平。此外，对362个错误分类的手动分析揭示了常见问题，包括LLMs对需求理解的误解（26.8%）。总之，PerfSense显著减少了手动分类性能敏感配置的努力，并为基于LLM的代码分析研究提供了有价值的见解。

一句话总结：

PerfSense通过利用大型语言模型，显著提高了识别性能敏感配置的效率和准确性。

Retrieval-Augmented Generation for Generative Artificial Intelligence in Medicine

发布时间：2024-06-18

作者：Rui Yang, Yilin Ning, Emilia Keppo, Mingxuan Liu, Chuan Hong, Danielle S Bitterman, Jasmine Chiat Ling Ong, Daniel Shu Wei Ting, Nan Liu

中文摘要：

生成式人工智能（AI）在各个领域，包括医学领域，带来了革命性的创新。然而，它也存在局限性。为了应对这些局限性，检索增强生成（RAG）提供了一种潜在的解决方案，通过利用外部知识的检索，使模型能够生成更准确的内容。随着生成式人工智能的快速发展，RAG有望为将这一变革性技术应用于医疗领域铺平道路，并预计将为医疗保健带来公平性、可靠性和个性化的创新。

一句话总结：

检索增强生成（RAG）技术有望推动生成式人工智能在医疗领域的应用，提升医疗保健的公平性、可靠性和个性化。

Intermediate Distillation: Data-Efficient Distillation from Black-Box LLMs for Information Retrieval

发布时间：2024-06-18

作者：Zizhong Li, Haopeng Zhang, Jiawei Zhang

中文摘要：

近期研究探讨了从大型语言模型（LLMs）中提炼知识以优化检索器模型，特别是在检索增强生成（RAG）框架下。然而，大多数现有的训练方法依赖于从LLMs的权重或输出概率中提取监督信号，这不仅资源密集，而且与黑盒LLMs不兼容。在本文中，我们引入了一种名为“中间蒸馏”的数据高效知识蒸馏训练方案，该方案将LLMs视为黑盒，并通过创新的LLM排名生成器-检索器管道提炼其知识，仅使用LLMs的排名生成作为监督信号。大量实验表明，我们提出的方法仅用1000个训练实例就能显著提高检索器模型的性能。此外，我们蒸馏得到的检索器模型在RAG框架下的问答任务中显著提升了性能，证明了LLMs在经济有效地训练小型模型方面的潜力。

一句话总结：

本文提出了一种名为“中间蒸馏”的方法，通过将大型语言模型作为黑盒处理，有效优化了检索器模型，并在检索增强生成框架下显著提升了问答任务的性能。

Satyrn: A Platform for Analytics Augmented Generation

发布时间：2024-06-17

作者：Marko Sterbentz, Cameron Barrie, Shubham Shahi, Abhratanu Dutta, Donna Hooshmand, Harper Pack, Kristian J. Hammond

中文摘要：

大型语言模型（LLMs）能够生成文档，而检索增强生成（RAG）已被证明是一种在不牺牲流畅性的情况下提高准确性的强大方法。然而，并非所有信息都能从文本中检索到。我们提出了一种方法，该方法使用结构化数据分析来生成事实集，这些事实集被用来指导生成，与RAG中使用的检索文档的方式非常相似。这种分析增强生成（AAG）方法支持利用标准分析技术生成事实，然后将这些事实转换为文本并传递给LLM。我们提出了一种神经符号平台Satyrn，它利用AAG来生成基于大规模数据库的准确、流畅和连贯的报告。在我们的实验中，我们发现Satyrn生成的报告中，超过86%的陈述是准确的，同时保持了高水平的流畅性和连贯性，即使与使用较小的语言模型（如Mistral-7B）相比，而GPT-4 Code Interpreter中只有57%的陈述是准确的。

一句话总结：

Satyrn通过结合分析增强生成技术，实现了基于大规模数据库的准确、流畅和连贯的报告生成。

Language Modeling with Editable External Knowledge

发布时间：2024-06-17

作者：Belinda Z. Li, Emmy Liu, Alexis Ross, Abbas Zeitoun, Graham Neubig, Jacob Andreas

中文摘要：

当世界发生变化时，人类关于它的文字描述也会随之改变。我们如何构建能够轻松更新以反映这些变化的语言模型呢？一种流行的方法是检索增强生成，其中新文档被插入到知识库中，并在预测下游任务时检索。大多数关于这些系统的研究都集中在通过更好的检索或推理来改善预测过程中的行为。本文介绍了ERASE，它通过在每次添加文档时增量删除或重写知识库中的其他条目，从而在获取新文档时改善模型行为。在两个新的基准数据集上，ERASE在回答关于一系列新闻文章或对话的问题的能力方面，相对于传统的检索增强生成，提高了7-13%（Mixtral-8x7B）和6-10%（Llama-3-8B）的绝对准确率。代码和数据可在https://github.com/belindal/ERASE获取。

一句话总结：

ERASE通过增量删除或重写知识库中的其他条目，在获取新文档时改善语言模型的行为，从而提高了检索增强生成的准确率。

R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models

发布时间：2024-06-17

作者：Shangqing Tu, Yuanchun Wang, Jifan Yu, Yuyang Xie, Yaran Shi, Xiaozhi Wang, Jing Zhang, Lei Hou, Juanzi Li

中文摘要：

大型语言模型在通用自然语言处理任务上取得了显著的成功，但在特定领域的问题上可能存在不足。近期，各种检索增强大型语言模型（RALLMs）被提出以解决这一不足。然而，现有的评估工具仅提供少数基线，并在各个领域进行评估，而没有挖掘领域知识的深度。在本文中，我们通过引入R-Eval工具包来解决评估RALLMs的挑战，这是一个Python工具包，旨在简化与LLMs结合的不同RAG工作流程的评估。我们的工具包支持流行的内置RAG工作流程，并允许在特定领域内整合定制的测试数据，旨在设计成用户友好、模块化和可扩展的。我们对21个RALLMs在三个任务级别和两个代表性领域进行了评估，揭示了RALLMs在不同任务和领域中的有效性存在显著差异。我们的分析强调了在选择RAG工作流程和LLM组合时，考虑任务和领域需求的重要性。我们致力于持续维护我们的平台（https://github.com/THU-KEG/R-Eval），以促进工业界和研究人员的工作。

一句话总结：

本文提出R-Eval工具包，用于评估检索增强大型语言模型（RALLMs）在不同任务和领域中的有效性，强调选择RAG工作流程和LLM组合时考虑任务和领域需求的重要性。

CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG

发布时间：2024-06-17

作者：Boyi Deng, Wenjie Wang, Fengbin Zhu, Qifan Wang, Fuli Feng

中文摘要：

检索增强生成（RAG）可以通过参考外部文档来缓解大型语言模型（LLMs）的幻觉。然而，外部文档中的错误信息可能会误导LLMs的生成。为了解决这个问题，我们探索了“可信度感知RAG”的任务，在该任务中，LLMs根据外部文档的可信度分数自动调整检索文档的影响，以对抗错误信息。为此，我们引入了一种名为$\textbf{Cr}$edibility-aware $\textbf{A}$ttention $\textbf{M}$odification（CrAM）的即插即用方法。CrAM识别LLMs中的有影响力的注意力头，并根据文档的可信度调整它们的注意力权重，从而减少低可信度文档的影响。在Llama2-13B、Llama3-8B和Qwen-7B上进行的实验表明，CrAM通过超过20%的比例提高了LLMs对错误信息污染的RAG性能，甚至超过了监督微调方法。

一句话总结：

CrAM通过调整LLMs的注意力权重，基于文档可信度来提高RAG性能，有效对抗错误信息污染。

TRACE the Evidence: Constructing Knowledge-Grounded Reasoning Chains for Retrieval-Augmented Generation

发布时间：2024-06-17

作者：Jinyuan Fang, Zaiqiao Meng, Craig Macdonald

中文摘要：

检索增强生成（RAG）为解决问答（QA）任务提供了一种有效的方法。然而，RAG模型中检索器的缺陷往往导致检索到不相关信息，这可能会引入噪声并降低性能，尤其是在处理需要多个推理步骤的多跳问题时。为了增强RAG模型的多跳推理能力，我们提出了TRACE。TRACE构建基于知识的推理链，这是一系列逻辑上相互连接的知识三元组，以识别和整合检索文档中的支持证据来回答问题。具体来说，TRACE使用KG Generator从检索文档中创建知识图谱（KG），然后使用自回归推理链构建器来构建推理链。在三个多跳QA数据集上的实验结果表明，与使用所有检索文档相比，TRACE实现了平均性能提升高达14.03%。此外，结果表明，使用推理链作为上下文，而不是整个文档，通常足以正确回答问题。

一句话总结：

TRACE通过构建基于知识的推理链，有效提升了RAG模型在多跳问答任务中的性能。

Evaluating the Efficacy of Open-Source LLMs in Enterprise-Specific RAG Systems: A Comparative Study of Performance and Scalability

发布时间：2024-06-17

作者：Gautam B, Anupam Purwar

中文摘要：

本文对开源大型语言模型（LLMs）及其在企业特定数据集（从其网站抓取）上的检索增强生成（RAG）任务中的应用进行了分析。随着自然语言处理中对LLMs的依赖性日益增加，评估其在特定组织环境中的性能、可访问性和集成变得至关重要。本研究考察了各种开源LLMs，探讨了它们如何利用企业特定数据集成到RAG框架中，并评估了不同开源嵌入技术在增强检索和生成过程中的性能。我们的研究结果表明，结合有效的嵌入技术，开源LLMs可以显著提高RAG系统的准确性和效率，为企业提供了一种可行的替代方案，以替代专有解决方案。

一句话总结：

本研究发现，结合有效的嵌入技术，开源LLMs能够显著提升企业RAG系统的性能，为企业提供了一种替代专有解决方案的可行途径。

Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report

发布时间：2024-06-17

作者：Franz Louis Cesista

中文摘要：

多模态基础模型（MMFMs）在各种计算机视觉和自然语言处理任务上表现出色。然而，它们在特定任务如文档理解上的表现仍然有限。与传统的单模态模型相比，它们在微调和部署时需要更多的计算、时间和工程资源。在本报告中，我们提出了多模态结构化生成（Multimodal Structured Generation），这是一个通用框架，它通过限制冻结的MMFMs的输出logits，迫使它们在以结构化输出形式响应之前进行推理，这些输出可以被下游API解析和使用。我们详细介绍了我们的方法，包括技术细节、理论讨论以及在计算机视觉和模式识别（CVPR）会议举办的第二届多模态基础模型挑战赛中的最终评估结果。我们的方法在第二阶段的隐藏测试集中获得了第二高的分数，总体上排名第三。这表明了该方法泛化到未见任务的能力。正如我们在论文《检索增强结构化生成：商业文档信息提取作为工具使用》中首先讨论的那样，简单的工程可以战胜昂贵且复杂的建模步骤。我们所有的脚本、部署步骤和评估结果都可以在https://github.com/leloykun/MMFM-Challenge访问。

一句话总结：

该研究提出了一种名为多模态结构化生成的方法，通过限制多模态基础模型的输出，提高了其在特定任务上的表现，并证明了简单工程方法在复杂建模步骤中的有效性。

Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities

发布时间：2024-06-17

作者：Zhonghao Li, Xuming Hu, Aiwei Liu, Kening Zheng, Sirui Huang, Hui Xiong

中文摘要：

大型语言模型（LLMs）由于其参数化知识的限制，在知识密集型任务中会导致幻觉。为了解决这个问题，检索增强生成（RAG）通过整合外部文档片段来扩展LLMs的知识。此外，通过提取或总结文档片段中的信息可以提高LLMs的性能。然而，LLMs仍然难以注意到并利用分散的关键信息，这被称为“迷失在中间”的综合征。因此，我们通常需要重新组织内容以便LLMs能够识别关键信息。我们提出了$\textit{Refiner}$，这是一个在RAG的检索后过程中运行的端到端提取和重构范式。$\textit{Refiner}$利用单个仅解码的LLMs来自适应地提取与查询相关的文本内容及其必要的上下文，并根据它们之间的相互关联进行分段，从而突出信息差异，并有效地将下游LLMs与原始上下文对齐。实验表明，经过训练的$\textit{Refiner}$（具有70亿参数）在提高答案准确性方面对下游LLMs有显著提升，并在各种单跳和多跳问答任务中优于其他最先进的RAG和并发压缩方法。值得注意的是，与下一个最佳解决方案相比，$\textit{Refiner}$在多跳任务中实现了80.5%的令牌减少和1.6-7.0%的改进幅度。$\textit{Refiner}$是一个即插即用的解决方案，可以无缝集成到RAG系统中，促进其在各种开源框架中的应用。

一句话总结：

$\textit{Refiner}$通过在RAG检索后过程中提取和重构关键信息，显著提升了LLMs在问答任务中的性能。

Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy

发布时间：2024-06-17

作者：Hengran Zhang, Keping Bi, Jiafeng Guo, Xueqi Cheng

中文摘要：

在信息检索（IR）中，效用和主题相关性是两个关键指标，分别反映了系统和用户的角度。虽然主题相关性长期以来一直受到重视，但效用是一种更高的相关性标准，并且对于促进下游任务（例如，在检索增强生成（RAG）中）更有用。当我们将效用判断纳入RAG时，我们发现RAG中的主题相关性、效用和回答与Schutz从哲学角度讨论的三种相关性类型密切相关。它们分别是主题相关性、解释性相关性和动机相关性。受三种相关性动态迭代灵感的启发，我们提出了一种迭代效用判断框架（ITEM），以促进RAG周期的每一步。我们在多级段落检索和事实性问题回答数据集（即TREC DL、WebAP和NQ）上进行了广泛的实验。实验结果表明，与代表性基线（包括多种单次效用判断方法）相比，在效用判断、主题相关性排名和答案生成方面都有显著的改进。我们的代码和基准可以在https://anonymous.4open.science/r/ITEM-B486/找到。

一句话总结：

提出了一种迭代效用判断框架（ITEM），以提升检索增强生成（RAG）中的效用判断、主题相关性排名和答案生成质量。

Enhancing Biomedical Knowledge Retrieval-Augmented Generation with Self-Rewarding Tree Search and Proximal Policy Optimization

发布时间：2024-06-17

作者：Minda Hu, Licheng Zong, Hongru Wang, Jingyan Zhou, Jingjing Li, Yichen Gao, Kam-Fai Wong, Yu Li, Irwin King

中文摘要：

大型语言模型（LLMs）在生物医学领域展现出巨大潜力，随着检索增强生成（RAG）技术的进步。然而，现有的检索增强方法在处理多样化查询和文档时面临挑战，尤其是针对医学知识查询，导致性能不佳。为了解决这些局限性，我们提出了一种基于蒙特卡洛树搜索（MCTS）和自我奖励范式的创新即插即用LLM检索方法，称为自我奖励树搜索（SeRTS）。通过结合LLMs的推理能力和树搜索的有效性，SeRTS提升了RAG在零样本情况下检索高质量和有信息量结果的能力。我们进一步通过使用SeRTS收集的轨迹作为反馈，利用近端策略优化（PPO）目标微调LLMs，从而增强检索性能。在BioASQ-QA数据集上，使用GPT-3.5-Turbo和LLama2-7b进行的受控实验表明，我们的方法显著提高了BM25检索器的性能，并在效率和可扩展性方面超越了自我反思的强大基线。此外，SeRTS为PPO训练生成的反馈质量高于自我反思。我们提出的方法有效地使LLMs适应文档检索任务，增强了它们在医学知识查询背景下检索高度相关文档的能力。这项工作在利用LLMs进行准确和全面的生物医学问答方面迈出了重要一步。

一句话总结：

SeRTS通过结合LLMs的推理能力和树搜索，显著提升了RAG在医学知识查询中的文档检索性能。

Enabling robots to follow abstract instructions and complete complex dynamic tasks

发布时间：2024-06-17

作者：Ruaridh Mon-Williams, Gen Li, Ran Long, Wenqian Du, Chris Lucas

中文摘要：

在不可预测的环境，如家庭厨房中完成复杂任务对机器人系统提出了挑战。这些挑战包括理解高级人类指令，例如“给我泡一杯热饮”，以及执行诸如将精确量的水倒入移动杯子等动作。为了应对这些挑战，我们提出了一种新的框架，该框架结合了大型语言模型（LLMs）、精心编制的知识库和集成力与视觉反馈（IFVF）。我们的方法可以解释抽象指令，执行长期任务，并处理各种不确定性。它利用GPT-4来分析用户的查询和环境，然后在执行过程中生成访问精心编制的函数数据库的代码。它将抽象指令转换为可执行步骤。每个步骤都涉及通过检索增强的泛化来从知识库中提取与IFVF相关的示例，从而生成定制代码。IFVF允许机器人在执行过程中对噪声和干扰做出反应。我们使用咖啡制作和盘子装饰来展示我们的方法，包括从倒水到打开抽屉的各种组件，每个组件都受益于不同的反馈类型和方法。这一新颖的进步标志着在不确定环境中完成复杂任务的可扩展、高效机器人框架的重大进展。我们的发现在一个配套视频中得到了展示，并由一个开源的GitHub仓库（在论文接受后发布）支持。

一句话总结：

本研究提出了一种结合大型语言模型、知识库和集成力与视觉反馈的框架，以解决家庭厨房等不可预测环境中机器人完成复杂任务时的挑战。

Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models

发布时间：2024-06-17

作者：Scott Barnett, Zac Brannelly, Stefanus Kurniawan, Sheng Wong

中文摘要：

大型语言模型（LLMs）具有独特的理解并从输入查询中生成类似人类文本的能力。当进行微调时，这些模型在特定领域查询上表现出增强的性能。OpenAI强调了微调的过程，表示：“为了微调一个模型，你需要提供至少10个示例。我们通常在50到100个训练示例上看到微调带来的明显改进，但正确的数量根据具体用例有很大差异。”这项研究将这一概念扩展到检索增强生成（RAG）管道中LLMs的集成，旨在通过利用外部语料库数据进行信息检索来提高准确性和相关性。然而，RAG在复杂查询场景中提供最佳响应的承诺往往无法实现。本研究旨在特别考察微调LLMs对其提取和整合上下文数据以增强跨多个领域RAG系统性能的影响。我们通过比较微调模型与多个领域数据集的基线性能在数据提取和上下文理解能力上的影响来评估微调的影响。我们的发现表明，与OpenAI所建议的独立LLM应用中观察到的改进相反，微调导致性能相对于基线模型有所下降。这项研究强调了对于特定领域任务，对微调模型进行深入研究和验证的必要性。

一句话总结：

本研究发现，尽管微调可以提高LLMs在独立应用中的性能，但在RAG系统中，微调可能导致性能下降，强调了针对特定领域任务对微调模型进行深入研究和验证的必要性。

TIFG: Text-Informed Feature Generation with Large Language Models

发布时间：2024-06-17

作者：Xinhao Zhang, Jinghan Zhang, Fengran Mo, Yuzhong Chen, Kunpeng Liu

中文摘要：

文本信息对于数据挖掘和特征工程至关重要。然而，现有方法侧重于学习数据结构，而忽略了与数据伴随的文本信息。因此，它们浪费了这一宝贵资源，并错过了文本中嵌入的更深层次的数据关系。在本文中，我们引入了基于文本信息特征生成（Text-Informed Feature Generation，TIFG）的框架，这是一种新颖的基于大型语言模型（LLM）的文本信息特征生成框架。TIFG利用文本信息通过检索增强生成（Retrieval Augmented Generation，RAG）技术在外部知识中检索可能的关联特征来生成特征。在此方法中，TIFG可以生成新的可解释特征来丰富特征空间，并进一步挖掘特征关系。我们设计TIFG成为一个自动化的框架，该框架可以持续优化特征生成过程，适应新的数据输入，并在迭代中提高下游任务性能。在各种下游任务中的广泛实验表明，我们的方法可以生成高质量且具有意义的特征，并且显著优于现有方法。

一句话总结：

本文提出的TIFG框架通过利用文本信息，结合RAG技术生成高质量特征，有效提升了数据挖掘和特征工程的效果。

Vul-RAG: Enhancing LLM-based Vulnerability Detection via Knowledge-level RAG

发布时间：2024-06-17

作者：Xueying Du, Geng Zheng, Kaixin Wang, Jiayi Feng, Wentai Deng, Mingwei Liu, Bihuan Chen, Xin Peng, Tao Ma, Yiling Lou

中文摘要：

软件质量保证中，漏洞检测至关重要。近年来，深度学习模型（尤其是大型语言模型）在漏洞检测方面展现出巨大潜力。本研究提出了一种基于大型语言模型（LLM）的漏洞检测技术Vul-RAG，该技术利用知识级检索增强生成（RAG）框架，通过三个阶段对给定代码进行漏洞检测。首先，Vul-RAG通过LLM从现有的CVE实例中提取多维度知识，构建漏洞知识库；其次，对于给定的代码片段，Vul-RAG基于功能语义从构建的知识库中检索相关漏洞知识；第三，Vul-RAG利用LLM通过推理检索到的漏洞知识中的漏洞原因和修复方案，来检查给定代码片段的漏洞。我们在构建的基准测试PairVul上对Vul-RAG的评估表明，Vul-RAG在准确率和成对准确率上相对于所有基线分别提高了12.96%和110%。此外，我们的用户研究表明，Vul-RAG生成的漏洞知识可以作为高质量的解释，将手动检测的准确率从0.60提高到0.77。

一句话总结：

Vul-RAG通过利用大型语言模型和知识级检索增强生成框架，显著提高了软件漏洞检测的准确率和成对准确率。

Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags

发布时间：2024-06-16

作者：Daiqing Qi, Handong Zhao, Zijun Wei, Sheng Li

中文摘要：

尽管多模态大型语言模型（MLLMs）在一般视觉指令跟随能力方面取得了进展，但当需要提供精确且详细的视觉指令响应时，它们仍然面临关键问题：（1）无法识别新对象或实体，（2）提及不存在的对象，以及（3）忽视对象的属性细节。直观的解决方案包括提高数据量和质量或使用更大的基础模型。这些方法在减轻这些问题方面显示出有效性，但代价是收集大量新数据和引入一个显著更大的模型。站在这些方法的交汇点上，我们从多模态连接器图像到文本映射过程的视角来审视这三个面向对象的问题。在本文中，我们首先确定了多模态连接器由于训练数据不足而产生的局限性。受此启发，我们提出通过检索增强的标签标记来增强映射，这些标记包含丰富的对象感知信息，如对象名称和属性。通过我们的基于标签的视觉指令调整与检索增强（TUNA），我们在12个基准测试中优于共享相同语言模型和训练数据的基线。此外，我们还展示了TUNA在提供特定数据存储时的零样本能力。

一句话总结：

本文提出了一种基于标签的视觉指令调整方法（TUNA），通过检索增强的标签标记来增强多模态连接器的图像到文本映射过程，有效解决了多模态大型语言模型在视觉指令跟随中的面向对象问题。

Current state of LLM Risks and AI Guardrails

发布时间：2024-06-16

作者：Suriya Ganesh Ayyamperumal, Limin Ge

中文摘要：

大型语言模型（LLMs）日益复杂，广泛应用于对安全性和可靠性要求极高的敏感应用中。然而，LLMs自身存在固有风险，包括偏见、潜在的不安全行为、数据中毒、缺乏可解释性、幻觉和非可重复性。这些风险需要开发“安全带”来确保LLMs符合预期行为并减轻潜在危害。本研究探讨了部署LLMs的风险，并评估了实施安全带和模型对齐技术的当前方法。我们检查了内在和外在偏见评估方法，并讨论了公平性指标在负责任AI开发中的重要性。探讨了具有现实世界行动能力的代理型LLMs（agentic LLMs）的安全性和可靠性，强调测试性、安全措施和情境意识的需要。提出了确保LLMs安全的策略，包括在外部、次要和内部级别运行的分层保护模型。突出了系统提示、检索增强生成（RAG）架构以及最小化偏见和保护隐私的技术。有效的安全带设计需要深入了解LLMs的预期用例、相关法规和伦理考量。在准确性和隐私等竞争性要求之间取得平衡仍然是一个持续的挑战。本研究强调了持续研究和开发的重要性，以确保LLMs在现实世界应用中的安全和负责任使用。

一句话总结：

本研究探讨了大型语言模型的风险和安全措施，以确保其在敏感应用中的安全和负责任使用。

Automating Pharmacovigilance Evidence Generation: Using Large Language Models to Produce Context-Aware SQL

发布时间：2024-06-15

作者：Jeffery L. Painter, Venkateswara Rao Chalamalasetti, Raymond Kassekert, Andrew Bate

中文摘要：

目标：通过使用大型语言模型（LLMs）将自然语言查询（NLQs）转换为结构化查询语言（SQL）查询，并利用业务上下文文档，以提高药物警戒（PV）数据库中信息检索的效率和准确性。材料与方法：我们在检索增强生成（RAG）框架中使用了OpenAI的GPT-4模型，并加入了业务上下文文档，以将NLQs转换为语法精确的SQL查询。每个NLQ都是随机且独立地呈现给LLM的，以防止记忆化。研究分为三个阶段，查询复杂度不同，评估了LLM在有和没有业务上下文文档时的性能。结果：我们的方法显著提高了NLQ到SQL的准确性，从仅使用数据库模式时的8.3%提高到有业务上下文文档时的78.3%。这种提升在低、中、高复杂度查询中都是一致的，表明上下文知识在查询生成中的关键作用。讨论：加入业务上下文文档显著提高了LLM生成准确且上下文相关的SQL查询的能力。当排除高复杂度查询时，性能达到了85%，这表明了常规部署的潜力。结论：本研究提出了一种使用LLMs进行安全数据检索和分析的新方法，展示了查询生成准确性的显著进步。该方法提供了一个适用于各种数据密集型领域的框架，提高了非技术用户信息检索的易用性和效率。

一句话总结：

本研究通过将大型语言模型应用于药物警戒数据库的信息检索，显著提高了自然语言查询转换为结构化查询语言的准确性。

BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

发布时间：2024-06-14

作者：Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

中文摘要：

近年来，大型语言模型（LLMs）的输入上下文大小急剧增加。然而，现有的评估方法并未跟上步伐，无法全面评估模型处理长上下文的效率。为了填补这一差距，我们引入了BABILong基准，旨在测试语言模型在处理极度长文档中分布的事实进行推理的能力。BABILong包含20个多样化的推理任务，包括事实链、简单归纳、演绎、计数以及处理列表/集合。这些任务本身就具有挑战性，当所需的事实散布在长自然文本中时，挑战性更大。我们的评估显示，流行的LLMs仅有效利用了上下文的10-20%，并且随着推理复杂性的增加，其性能急剧下降。在上下文推理的替代方案中，检索增强生成方法在单事实问答中实现了60%的准确率，与上下文长度无关。在上下文扩展方法中，循环记忆转换器表现出最高的性能，能够处理长达1100万个标记的长度。BABILong基准可扩展到任何长度，以支持评估具有更高能力的新模型，我们提供了长达100万个标记长度的分割。

一句话总结：

BABILong基准通过多样化的推理任务评估了LLMs处理长上下文的效率，揭示了现有模型在处理长文本推理时的局限性。

HIRO: Hierarchical Information Retrieval Optimization

发布时间：2024-06-14

作者：Krish Goel, Mahek Chandak

中文摘要：

大型语言模型（LLMs）在自然语言任务中表现出色，但由于静态训练数据集的限制，它们在提供过时或上下文浅显的回答方面存在局限性。检索增强生成（RAG）通过整合实时外部知识来解决这个问题，从而提高了模型的准确性和可信度，尤其是在知识密集型任务中。然而，RAG增强的LLMs在处理长上下文时遇到困难，导致它们在信息过载的情况下“窒息”，从而损害了回答质量。最近，RAG应用使用分层数据结构来存储文档，这些文档在各个层级的摘要和信息密度上进行了组织。在此背景下，我们引入了HIRO（分层信息检索优化），这是一种针对使用分层结构存储文档的RAG应用的新型查询方法。HIRO采用基于DFS的递归相似度评分计算和分支剪枝，以最小化返回给LLM的上下文，同时不损失信息。在NarrativeQA数据集上，HIRO在现有查询机制上实现了10.85%的绝对性能提升。

一句话总结：

HIRO通过分层信息检索优化，提高了RAG应用在处理长上下文时的性能，显著提升了LLMs在知识密集型任务中的回答质量。

Retrieval Augmented Fact Verification by Synthesizing Contrastive Arguments

发布时间：2024-06-14

作者：Zhenrui Yue, Huimin Zeng, Lanyu Shang, Yifan Liu, Yang Zhang, Dong Wang

中文摘要：

本文提出了一种通过合成对比论证（RAFTS）的检索增强事实核查方法。该方法首先进行证据检索，设计了一个检索流程来收集和重新排序来自可验证来源的相关文档。然后，RAFTS根据检索到的证据形成对比论证（即支持或反驳）。此外，RAFTS利用嵌入模型来识别信息丰富的演示，随后通过上下文提示生成预测和解释。该方法有效地检索相关文档作为证据，并从不同角度评估论证，为细粒度决策提供细微信息。结合信息丰富的上下文示例作为先验，RAFTS在不使用复杂提示的情况下，显著提高了监督和LLM基线方法的性能。通过广泛的实验，我们证明了该方法的有效性，其中RAFTS可以使用一个显著较小的7B LLM超越基于GPT的方法。

一句话总结：

本文提出了一种基于检索和对比论证的事实核查方法，通过有效检索证据和从多角度评估论证，显著提升了事实核查的准确性。

STALL+: Boosting LLM-based Repository-level Code Completion with Static Analysis

发布时间：2024-06-14

作者：Junwei Liu, Yixuan Chen, Mingwei Liu, Xin Peng, Yiling Lou

中文摘要：

仓库级别的代码补全因其涉及来自多个文件的复杂上下文而具有挑战性。迄今为止，研究人员提出了两种技术类别来增强基于大型语言模型（LLM）的仓库级别代码补全，即检索增强生成（RAG）和静态分析集成。本研究首次对基于LLM的仓库级别代码补全中的静态分析集成进行了研究，探讨了静态分析集成策略在代码补全不同阶段的有效性和效率。我们首先实现了一个框架STALL+，它支持将多种静态分析策略可扩展和可定制地集成到基于LLM的仓库级别代码补全的完整流程中；基于STALL+，我们在最新的仓库级别代码补全基准CrossCodeEval上进行了广泛的实验，包括不同的代码LLM。我们的发现表明，在提示阶段集成文件级依赖性表现最佳，而在后处理阶段的集成表现最差。此外，我们观察到静态分析在动态语言和静态语言之间的不同改进，即对于Java，最佳组合是提示阶段与解码阶段集成，而对于Python，鉴于动态语言的静态分析限制，最佳组合是提示阶段与后处理阶段集成。此外，我们还发现RAG与静态分析集成之间的互补性以及它们组合后的成本效益。

一句话总结：

本研究通过实施一个支持多种静态分析策略集成的框架，探讨了静态分析在基于LLM的仓库级别代码补全中的有效性和效率，并揭示了其在不同语言和不同阶段的最佳应用方式。

ClimRetrieve: A Benchmarking Dataset for Information Retrieval from Corporate Climate Disclosures

发布时间：2024-06-14

作者：Tobias Schimanski, Jingwei Ni, Roberto Spacey, Nicola Ranger, Markus Leippold

中文摘要：

为了处理企业气候沟通中产生的海量定性数据，利益相关者越来越多地依赖检索增强生成（RAG）系统。然而，在评估特定领域的信息检索——答案生成的基础——方面，仍存在显著的差距。为了应对这一挑战，本研究通过考察30份包含16个详细气候相关问题的可持续发展报告，模拟了可持续发展分析师的典型任务。结果，我们获得了一个包含超过8.5K个独特的问题-来源-答案对的数据集，这些对被不同级别的相关性所标记。此外，我们利用该数据集开发了一个用例，以研究将专家知识通过嵌入整合到信息检索中的情况。尽管我们表明引入专家知识是有效的，但我们同时也概述了嵌入在知识密集型下游领域（如气候变化沟通）中的关键局限性。

一句话总结：

本研究通过模拟可持续发展分析师的任务，评估了RAG系统在处理企业气候沟通数据中的性能，并揭示了嵌入在知识密集型领域中的局限性。

HIRO: Hierarchical Information Retrieval Optimization

发布时间：2024-06-14

作者：Krish Goel, Mahek Chandak

中文摘要：

检索增强生成（RAG）通过动态地将外部知识整合到大型语言模型（LLMs）中，解决了它们静态训练数据集的局限性，从而革新了自然语言处理。最近RAG的实现利用了分层数据结构，这些结构按不同层级的摘要和信息密度组织文档。然而，这种复杂性可能导致LLMs在信息过载时“窒息”，需要更复杂的查询机制。在此背景下，我们引入了分层信息检索优化（HIRO），这是一种新颖的查询方法，它采用基于深度优先搜索（DFS）的递归相似度评分计算和分支剪枝。这种方法独特地最小化了传递给LLM的上下文，同时不损失信息，有效地管理了数据过量的挑战。HIRO的优化方法通过在NarrativeQA数据集上性能提升了10.85%得到了验证。

一句话总结：

分层信息检索优化（HIRO）通过递归相似度评分和分支剪枝，有效管理了大型语言模型在信息过载时的查询挑战，提升了自然语言处理性能。

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

发布时间：2024-06-13

作者：Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman

中文摘要：

生成与人类动作相对应的逼真音频对于许多应用至关重要，例如为电影或虚拟现实游戏创建音效。现有的方法隐含地假设在训练过程中视频和音频之间存在完全对应关系，然而许多声音发生在屏幕之外，并且与视觉内容几乎没有对应关系——导致测试时出现无法控制的背景声音或幻觉。我们提出了一种新颖的环境感知音频生成模型，AV-LDM。我们设计了一种新颖的音频条件化机制，以学习在野外训练视频中分离前景动作声音和环境背景声音。给定一个新颖的静音视频，我们的模型使用检索增强生成来创建既在语义上又在时间上与视觉内容相匹配的音频。我们在两个野外自拍摄像机视频数据集Ego4D和EPIC-KITCHENS上训练和评估了我们的模型，并引入了Ego4D-Sounds——包含1.2M个动作音频对应剪辑的精选剪辑。我们的模型优于现有的多种方法，允许可控地生成环境声音，甚至显示出推广到计算机图形游戏剪辑的潜力。总的来说，我们的方法首次将视频到音频的生成忠实于观察到的视觉内容，尽管是从未经编辑的带有自然背景声音的剪辑中进行训练。

一句话总结：

本研究提出了一种新颖的环境感知音频生成模型，能够从未经编辑的野外视频数据中生成与视觉内容相匹配的逼真音频。

Ad Auctions for LLMs via Retrieval Augmented Generation

发布时间：2024-06-12

作者：MohammadTaghi Hajiaghayi, Sébastien Lahaie, Keivan Rezaei, Suho Shin

中文摘要：

在计算广告领域，将广告整合到大型语言模型（LLMs）的输出中，为在不损害内容完整性的情况下支持这些服务提供了机会。本文介绍了一种新颖的拍卖机制，用于在LLMs的文本输出中进行广告分配和定价，利用检索增强生成（RAG）。我们提出了一种段落拍卖，其中根据广告的出价和相关性，按照RAG框架从每个话语段（段落、章节或整个输出）中概率性地检索广告，并根据竞争出价进行定价。我们表明，我们的拍卖最大化了对数社会福利，这是一种平衡分配效率和公平性的新福利概念，并描述了相关的激励兼容定价规则。这些结果扩展到每个段落的多个广告分配。实证评估验证了我们的方法在多个广告拍卖场景中的可行性和有效性，并展示了在允许LLM有更多灵活性分配广告时，指标中固有的权衡。

一句话总结：

本文提出了一种基于RAG框架的段落拍卖机制，用于在LLMs文本输出中进行广告分配和定价，以最大化对数社会福利。

VeraCT Scan: Retrieval-Augmented Fake News Detection with Justifiable Reasoning

发布时间：2024-06-12

作者：Cheng Niu, Yang Guan, Yuanhao Wu, Juno Zhu, Juntong Song, Randy Zhong, Kaihua Zhu, Siliang Xu, Shizhe Diao, Tong Zhang

中文摘要：

虚假新闻的泛滥不仅通过传播误导性信息构成严重威胁，还动摇了民主的基础。随着生成式人工智能的近期进步，区分真实新闻与虚构故事的问题进一步加剧。为了应对这一挑战，我们引入了VeraCT Scan，这是一种新颖的检索增强型虚假新闻检测系统。该系统通过从给定新闻中提取核心事实，随后在互联网范围内搜索以识别证实或冲突的报告来运作。然后利用来源的可信度进行信息验证。除了确定新闻的真实性外，我们还提供透明的证据和推理来支持其结论，从而实现结果的可解释性和可信度。除了GPT-4 Turbo，我们还对Llama-2 13B进行了微调，用于新闻内容理解、信息验证和推理。这两种实现都在虚假新闻检测领域展示了最先进的准确性。

一句话总结：

VeraCT Scan通过提取新闻核心事实和利用互联网搜索来验证信息，为虚假新闻检测提供了一种新颖且准确的方法。

Supportiveness-based Knowledge Rewriting for Retrieval-augmented Language Modeling

发布时间：2024-06-12

作者：Zile Qiao, Wei Ye, Yong Jiang, Tong Mo, Pengjun Xie, Weiping Li, Fei Huang, Shikun Zhang

中文摘要：

近年来，检索增强语言模型（RALMs）在缓解大型语言模型（LLMs）中隐含知识局限性方面展现出巨大潜力，例如最新专业知识的及时更新和长尾知识的不可靠保留。然而，由于外部知识库以及检索器无法保证可靠性，可能导致检索到的知识对LLM生成无益甚至误导。在本文中，我们引入了基于支持度的知识重写（SKR），这是一种为LLM生成而固有优化的鲁棒且可插拔的知识重写器。具体来说，我们通过考虑增强知识对白盒LLM响应文本的困惑度影响，引入了“支持度”这一新颖概念——它代表了一个知识片段如何有效地促进下游任务。基于知识支持度，我们首先为我们的重写器模型设计了一种训练数据整理策略，有效地识别和过滤掉质量差或不相关的重写（例如，支持度得分低的重写），以提高数据的有效性。然后，我们引入了直接偏好优化（DPO）算法，将生成的重写与最优支持度对齐，引导重写器模型总结增强内容，从而更好地提高最终响应。在六个流行的知识密集型任务和四个LLMs上的综合评估表明了SKR的有效性和优越性。SKR仅使用7B参数，在知识重写能力上优于当前最先进的通用LLM GPT-4。

一句话总结：

本文提出了一种基于支持度的知识重写方法，有效提升了LLM生成文本的质量，并在知识密集型任务中展现出优于现有LLM的优越性能。

Blowfish: Topological and statistical signatures for quantifying ambiguity in semantic search

发布时间：2024-06-12

作者：Thomas Roland Barillot, Alex De Castro

中文摘要：

本文报告了关于句子嵌入中歧义拓扑特征的证据，这些特征可以用于向量搜索和/或检索增强生成（RAG）系统中的排序和/或解释目的。我们提出了歧义的工作定义，并设计了一个实验，将专有数据集分解成不同大小的块——3行、5行和10行，并依次使用不同的集合作为查询集和答案集。这使我们能够在去除混杂因素的情况下测试歧义的签名。我们的结果表明，代理歧义查询（10行查询对3行文档）与代理清晰查询（5行查询对10行文档）在基于同源0和1的特征上显示出不同的分布。然后，我们讨论了这些结果，涉及增加的流形复杂性和/或近似不连续的嵌入子流形。最后，我们提出了一种利用这些发现作为语义相似度新评分策略的策略。

一句话总结：

本文通过分析句子嵌入中的歧义拓扑特征，提出了一种新的语义相似度评分策略，以优化向量搜索和RAG系统。

Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey

发布时间：2024-06-12

作者：Shang Wang, Tianqing Zhu, Bo Liu, Ming Ding, Xu Guo, Dayong Ye, Wanlei Zhou, Philip S. Yu

中文摘要：

随着人工智能的快速发展，大型语言模型（LLMs）在自然语言处理领域取得了显著的进步。这些模型在庞大的数据集上进行训练，展现出强大的语言理解和生成能力，广泛应用于机器翻译、聊天机器人、智能代理等多种应用场景。然而，LLMs在其生命周期中暴露出各种隐私和安全问题，引起了学术界和工业界的广泛关注。此外，LLMs面临的风险与传统语言模型遇到的风险存在显著差异。鉴于当前调查缺乏对多样化场景中独特威胁模型清晰分类，本文强调了与五个特定场景相关的独特隐私和安全威胁：预训练、微调、检索增强生成系统、部署和基于LLMs的智能代理。针对每种风险的特点，本文概述了潜在威胁和对策。对攻击和防御情况的研究可以提供可行的研究方向，使更多领域能够从LLMs中受益。

一句话总结：

本文探讨了大型语言模型在预训练、微调、检索增强生成系统、部署和基于LLMs的智能代理等五个场景中的隐私和安全威胁，并提出了相应的对策。

We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs

发布时间：2024-06-12

作者：Joseph Spracklen, Raveen Wijewickrama, A H M Nazmus Sakib, Anindya Maiti, Murtuza Jadliwala

中文摘要：

本文探讨了流行编程语言如Python和JavaScript对集中式包仓库和开源软件的依赖，以及代码生成大型语言模型（LLMs）的出现，这些因素共同导致了软件供应链面临一种新型威胁：包幻觉。这种由使用LLMs生成代码时出现的与事实相冲突的错误引起的幻觉，代表了一种新型的包混淆攻击，对软件供应链的完整性构成了关键威胁。本文对跨不同编程语言、设置和参数的包幻觉进行了严格的全面评估，探讨了不同LLM配置如何影响生成错误包推荐的可能性，并确定了这一现象的根本原因。我们使用16种不同的流行代码生成模型，在两种编程语言和两个独特的提示数据集上收集了576,000个代码样本，并对其进行了包幻觉分析。我们的发现显示，在所有测试的LLMs中，19.7%的生成包存在幻觉，包括205,474个独特的幻觉包名示例，进一步强调了这一威胁的严重性和普遍性。我们还实施并评估了基于检索增强生成（RAG）、自我检测反馈和监督微调的缓解策略。这些技术显著减少了包幻觉，其中一个模型的幻觉率降至3%以下。尽管缓解措施在降低幻觉率方面是有效的，但我们的研究揭示了包幻觉是一种系统性和持续的现象，对代码生成LLMs构成了重大挑战。

一句话总结：

本文揭示了软件供应链中由大型语言模型引起的包幻觉问题，并提出了缓解策略以降低其影响。

Battling Botpoop using GenAI for Higher Education: A Study of a Retrieval Augmented Generation Chatbots Impact on Learning

发布时间：2024-06-12

作者：Maung Thway, Jose Recatala-Gomez, Fun Siong Lim, Kedar Hippalgaonkar, Leonard W. T. Ng

中文摘要：

生成式人工智能（Generative Artificial Intelligence，GenAI）和大型语言模型（Large Language Models，LLMs）同时为提升人类学习开辟了新的途径，但也增加了学生回答中低质量信息（称为Botpoop）的普遍性。本研究介绍了Leodar教授，这是一个定制的、使用新加坡式英语（Singlish）说话的检索增强生成（Retrieval Augmented Generation，RAG）聊天机器人，旨在提升教育质量并减少Botpoop。Leodar教授在新加坡南洋理工大学部署，为AI辅助学习提供了未来的一瞥，提供了个性化指导、全天候可用性和情境相关信息。通过混合方法，我们考察了Leodar教授对学习、参与度和考试准备的影响，97.1%的参与者报告了积极的体验。这些发现有助于定义AI在教育中的可能角色，并突出了定制GenAI聊天机器人的潜力。我们结合聊天机器人开发、课堂部署和成果研究，为GenAI教育工具提供了一个基准，并为重新定义AI与人类学习之间的相互作用奠定了基础。

一句话总结：

本研究展示了定制GenAI聊天机器人（如Leodar教授）在提升教育质量和减少低质量信息传播方面的潜力。

Beyond Words: On Large Language Models Actionability in Mission-Critical Risk Analysis

发布时间：2024-06-11

作者：Matteo Esposito, Francesco Palagiano, Valentina Lenarduzzi, Davide Taibi

中文摘要：

背景。风险评估评估特定场景中的潜在风险。风险评估原则是无上下文的；相同的方法可以应用于与健康和信息技术安全相关的风险。风险评估需要广泛的国家和国际法规和标准知识，并且耗时费力。大型语言模型可以在比人类更短的时间内快速总结信息，并且可以针对特定任务进行微调。

目标。我们的实证研究旨在调查检索增强生成和微调后的LLM在风险评估中的有效性。据我们所知，没有先前的研究探索其在风险评估中的能力。

方法。我们手动整理了193个独特的场景，这些场景来自过去五年中工业上下文团队存档的超过50个关键任务分析，共产生了1283个代表性样本。我们比较了基础GPT-3.5和GPT-4模型与它们的检索增强生成和微调后的对应模型。我们雇佣了两位人类专家作为模型的竞争对手，并雇佣了三位其他人类专家来审查模型和前两位人类专家的分析。审查员分析了5000个场景分析。

结果和结论。人类专家展示了更高的准确性，但LLM更快且更具可操作性。此外，我们的发现表明，RAG辅助的LLM具有最低的幻觉率，有效地揭示了隐藏的风险，并补充了人类的专业知识。因此，模型的选择取决于具体需求，FTM用于准确性，RAG用于发现隐藏风险，基础模型用于全面性和可操作性。因此，专家可以在有限的时间内利用LLM作为风险评估的有效补充伙伴。他们还可以通过避免实施未经证实的对策相关的非必要费用来节省成本。

一句话总结：

本研究发现，大型语言模型在风险评估中可以有效地辅助人类专家，提高分析速度和准确性，同时降低成本。

DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering

发布时间：2024-06-11

作者：Zijian Hei, Weiling Liu, Wenjie Ou, Juyi Qiao, Junming Jiao, Guowen Song, Ting Tian, Yi Lin

中文摘要：

检索增强生成（RAG）最近展示了大型语言模型（LLMs）在知识密集型任务，如问答（QA）中的性能。RAG通过整合外部知识库来扩展查询上下文，从而提高响应的准确性。然而，对于每个查询多次访问LLMs将是不高效的，而通过单个查询检索所有相关文档也是不可靠的。我们发现，尽管某些关键文档与查询之间的相关性较低，但通过将文档的部分内容与查询结合，仍然可以检索到剩余的文档。为了挖掘相关性，提出了一种名为动态相关检索增强生成（DR-RAG）的两阶段检索框架，以提高文档检索的召回率和答案的准确性，同时保持效率。此外，应用了一个紧凑的分类器到两种不同的选择策略中，以确定检索到的文档对回答查询的贡献，并检索出相对相关的文档。同时，DR-RAG只调用LLMs一次，这显著提高了实验的效率。在多跳问答数据集上的实验结果表明，DR-RAG可以显著提高答案的准确性，并在问答系统中取得新的进展。

一句话总结：

DR-RAG通过结合外部知识库和紧凑分类器，有效提高了问答系统的答案准确性和检索效率。

Scholarly Question Answering using Large Language Models in the NFDI4DataScience Gateway

发布时间：2024-06-11

作者：Hamed Babaei Giglou, Tilahun Abedissa Taffa, Rana Abdullah, Aida Usmanova, Ricardo Usbeck, Jennifer D'Souza, Sören Auer

中文摘要：

本文介绍了一个基于NFDI4DataScience门户的学术问答（QA）系统，该系统采用基于检索增强生成（RAG）的方法。NFDI4DS门户作为一个基础框架，提供了一个统一且直观的界面，用于通过联邦搜索查询各种科学数据库。基于RAG的学术问答，由大型语言模型（LLM）提供支持，促进了与搜索结果的动态互动，增强了过滤能力，并促进了与门户搜索的对话式参与。通过实验分析证明了门户和学术问答系统的有效性。

一句话总结：

本文提出了一种基于NFDI4DataScience门户的学术问答系统，通过检索增强生成方法，提高了科学数据库查询的交互性和过滤能力。

FoodSky: A Food-oriented Large Language Model that Passes the Chef and Dietetic Examination

发布时间：2024-06-11

作者：Pengfei Zhou, Weiqing Min, Chaoran Fu, Ying Jin, Mingyu Huang, Xiangyang Li, Shuhuan Mei, Shuqiang Jiang

中文摘要：

食物是人类生活的基石，它不仅提供营养，还是文化身份和社会互动的基础。随着全球饮食需求和偏好的复杂性日益增长，需要食物智能来支持对食物的感知和推理，以完成各种任务，包括食谱生成、饮食建议、发现饮食与疾病的相关性以及理解这些关系。为了在大型语言模型（LLMs）中实现跨多个领域和任务的强大能力，我们引入了以食物为导向的LLM FoodSky，通过感知和推理来理解食物数据。考虑到中国菜系的复杂性和典型性，我们首先从各种权威来源构建了一个综合性的中文食物语料库FoodEarth，FoodSky可以利用它来深入理解与食物相关的数据。然后，我们提出了基于主题的选择状态空间模型（TS3M）和分层主题检索增强生成（HTRAG）机制，分别用于增强FoodSky捕捉细粒度食物语义和生成上下文感知的食物相关文本。我们的广泛评估表明，FoodSky在厨师和营养师考试中均显著优于通用LLMs，分别在中国国家厨师考试和国家营养师考试中达到了67.2%和66.4%的准确率。FoodSky不仅有望提升烹饪创意和促进更健康的饮食习惯，还为解决食物领域复杂现实问题的特定领域LLMs设定了新的标准。FoodSky的在线演示可在http://222.92.101.211:8200访问。

一句话总结：

FoodSky是一种以食物为导向的大型语言模型，通过感知和推理能力，在食物领域实现深入理解和生成相关文本，显著提升了烹饪和营养领域的智能应用。

RACon: Retrieval-Augmented Simulated Character Locomotion Control

发布时间：2024-06-11

作者：Yuxuan Mu, Shihao Zou, Kangning Yin, Zheng Tian, Li Cheng, Weinan Zhang, Jun Wang

中文摘要：

在计算机动画中，驱动具有逼真动作的模拟角色是一项挑战。尽管当前生成模型能够泛化到各种动作，但它们往往对终端用户控制的响应性提出挑战。为了解决这些问题，我们引入了RACon：检索增强的模拟角色运动控制。我们的端到端分层强化学习方法利用了一个检索器和运动控制器。检索器以任务为导向从用户指定的数据库中搜索动作专家，从而提高了对用户控制的响应性。然后，所选的动作专家和操作信号被传输到控制器，以驱动模拟角色。此外，设计了一个检索增强的判别器以稳定训练过程。我们的方法在运动控制的质量和数量上都优于现有技术，这在我们的实证研究中得到了证明。此外，通过切换用于检索的大量数据库，它可以在运行时适应不同的动作类型。

一句话总结：

RACon通过检索增强的强化学习方法，实现了对模拟角色运动控制的实时响应和高效适应性。

Progressive Query Expansion for Retrieval Over Cost-constrained Data Sources

发布时间：2024-06-11

作者：Muhammad Shihab Rashid, Jannat Ara Meem, Yue Dong, Vagelis Hristidis

中文摘要：

查询扩展长期以来被用于提高查询检索器的准确性。早期的作品依赖于伪相关性反馈（PRF）技术，这些技术通过从第一阶段检索到的文档中提取的术语来增强查询。然而，这些文档可能包含噪声，从而阻碍排名的有效性。为了避免这种情况，最近的研究反而使用了大型语言模型（LLMs）来生成额外的内容以扩展查询。这些技术容易产生幻觉，并且也关注LLM的使用成本。然而，在许多重要的实际场景中，成本可能主要由检索决定，在这些场景中，语料库只能通过API获取，每个检索到的文档都要收费。我们提出将经典的PRF技术与LLMs相结合，并创建了一个渐进式查询扩展算法ProQE，该算法在检索更多文档时迭代地扩展查询。ProQE与稀疏和密集检索系统都兼容。在我们的四个检索数据集上的实验结果表明，ProQE比最先进的基线提高了37%，并且是最具成本效益的。

一句话总结：

该研究提出了一种结合伪相关性反馈和大型语言模型的渐进式查询扩展算法ProQE，显著提高了检索准确性并降低了成本。

TelecomRAG: Taming Telecom Standards with Retrieval Augmented Generation and LLMs

发布时间：2024-06-11

作者：Girma M. Yilma, Jose A. Ayala-Romero, Andres Garcia-Saavedra, Xavier Costa-Perez

中文摘要：

大型语言模型（LLMs）在电信行业中具有巨大的变革潜力。它们可以帮助专业人士理解复杂的标准、生成代码并加速开发。然而，传统的LLMs在电信工作中所需的精确性和来源验证方面存在困难。为了解决这个问题，需要专门针对电信标准的基于LLMs的解决方案。检索增强生成（RAG）提供了一种创建精确、基于事实答案的方法。本文提出了一种名为TelecomRAG的框架，用于电信标准助手，该助手提供准确、详细且可验证的响应。我们的实现使用了从3GPP Release 16和Release 18规范文档构建的知识库，展示了该助手如何超越通用LLMs，提供更高的准确性、技术深度和可验证性，从而为电信领域带来显著的价值。

一句话总结：

本文提出的TelecomRAG框架通过结合知识库和检索增强生成技术，为电信行业提供了一种超越传统LLMs的精确、可验证的电信标准助手。

GraphCoder: Enhancing Repository-Level Code Completion via Code Context Graph-based Retrieval and Language Model

发布时间：2024-06-11

作者：Wei Liu, Ailun Yu, Daoguang Zan, Bo Shen, Wei Zhang, Haiyan Zhao, Zhi Jin, Qianxiang Wang

中文摘要：

代码补全的性能依赖于对通用知识和库特定知识的有效利用。尽管代码大型语言模型（LLMs）在通用代码补全任务中表现出令人印象深刻的能力，但由于这些LLMs缺乏库特定知识，它们在库级补全任务上往往表现不尽如人意。为了解决这个问题，我们提出了GraphCoder，这是一个检索增强型代码补全框架，它通过基于图检索-生成过程利用LLMs的通用代码知识和库特定知识。特别是，GraphCoder通过代码上下文图（CCG）更准确地捕捉补全目标的上下文，CCG由代码语句之间的控制流、数据和控制依赖关系组成，这是一种比现有检索增强方法中使用的基于序列的上下文更结构化的方式来捕捉补全目标上下文；基于CCG，GraphCoder进一步采用从当前库中定位与补全目标上下文相似的代码片段的粗到细的检索过程。实验结果表明，GraphCoder既有效又高效：与基线检索增强方法相比，GraphCoder在平均精确匹配（EM）上实现了更高的提升，代码匹配提高了+6.06，标识符匹配提高了+6.23，同时使用更少的时间和空间。

一句话总结：

GraphCoder通过结合LLMs的通用知识和库特定知识，通过图检索-生成过程实现了高效的代码补全。

A Lightweight Framework for Adaptive Retrieval In Code Completion With Critique Model

发布时间：2024-06-11

作者：Wenrui Zhang, Tiehang Fu, Ting Yuan, Ge Zhang, Dong Chen, Jie Wang

中文摘要：

近年来，检索增强生成（Retrieval-Augmented Generation，RAG）在代码补全方面的进步显著提高了代码库级别的代码补全效果。基于不同的设计选择，提出了各种基于RAG的代码补全系统。例如，通过多次重复检索生成过程来提高有效性。然而，当前方法中检索的无差别使用在效率和有效性方面都存在问题，因为相当一部分检索是不必要的，可能会向代码语言模型引入无帮助甚至有害的建议。为了解决这些挑战，我们引入了CARD，这是一种轻量级的批评方法，旨在提供对检索必要性的洞察，并从多个预测中选择最佳答案。CARD可以无缝集成到任何基于RAG的代码补全系统中。我们的评估显示，CARD在行补全中节省了21%到46%的检索时间，在API补全中节省了14%到40%的检索时间，在函数补全中节省了6%到46.5%的检索时间，同时提高了准确率。CARD将延迟减少了16%到83%。CARD可以推广到不同的语言模型（LM）、检索器（retrievers）和编程语言。它轻量级，训练只需几秒钟，推理只需几毫秒。

一句话总结：

CARD是一种轻量级的批评方法，通过优化检索过程显著提高了基于RAG的代码补全系统的效率和准确性。

Evaluating the Retrieval Component in LLM-Based Question Answering Systems

发布时间：2024-06-10

作者：Ashkan Alinejad, Krtin Kumar, Ali Vahdat

中文摘要：

问答系统（QA）利用大型语言模型（LLMs）时，高度依赖检索组件来提供特定领域的信息，以降低生成不准确响应或幻觉的风险。尽管检索器的评估可以追溯到信息检索的早期研究，但在基于LLM的聊天机器人中评估其性能仍然是一个挑战。本研究提出了一种简单的基线方法来评估基于检索增强生成（RAG）的聊天机器人中的检索器。我们的发现表明，这个评估框架提供了对检索器性能的更好了解，并且与问答系统的整体性能更加一致。尽管传统的指标如精确率、召回率和F1分数可能无法完全捕捉LLMs的能力——因为即使检索器不完美，它们也能生成准确的响应——但我们的方法考虑了LLMs的优势，即忽略无关的上下文，以及它们响应中的潜在错误和幻觉。

一句话总结：

本研究提出了一种评估基于LLM的问答系统检索器性能的新框架，该框架更贴近实际应用，并考虑了LLMs在忽略无关信息和减少错误方面的优势。

Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue

发布时间：2024-06-10

作者：Simone Alghisi, Massimo Rizzoli, Gabriel Roccabruna, Seyed Mahed Mousavi, Giuseppe Riccardi

中文摘要：

本研究探讨了大型语言模型（LLMs）在人类-机器对话中生成响应任务的局限性。文献中已经提出了针对不同对话类型（例如，开放域）的多种技术。然而，这些技术的评估在基础LLMs、对话类型和评估指标方面都存在局限性。在本工作中，我们广泛分析了不同LLM适应技术在不同对话类型中的应用。我们选择了两个基础LLMs，即Llama-2和Mistral，以及四种对话类型：开放域、知识基础、任务导向和问答。我们评估了在每种对话类型所选数据集上，上下文学习和微调技术的性能。我们评估了在检索增强生成（RAG）和黄金知识两种场景中，引入外部知识以使生成过程具有可解释性的影响。我们采用了统一的评估和可解释性标准，用于自动指标和人工评估协议。我们的分析表明，没有一种通用的最佳技术来适应大型语言模型，因为每种技术的有效性都取决于基础LLM和特定对话类型。最后但并非最不重要的是，评估最佳适应技术应包括人工评估，以避免由自动指标产生的错误期望和结果。

一句话总结：

本研究分析了大型语言模型在不同对话类型中的适应技术，发现没有一种通用的最佳技术，且最佳适应技术的评估应包括人工评估。

The Impact of Quantization on Retrieval-Augmented Generation: An Analysis of Small LLMs

发布时间：2024-06-10

作者：Mert Yazan, Suzan Verberne, Frederik Situmeang

中文摘要：

本文研究了训练后量化对小型大型语言模型（LLMs）在检索增强生成（RAG）任务，特别是在长文本上下文中的能力的影响。由于LLMs的能力与规模相关，小型LLMs对量化更为敏感。我们选取个性化作为评估领域，因为它是一个挑战性的领域，需要跨多个文档进行长文本推理。我们比较了多个7B和8B LLMs在原始FP16和量化INT4下的表现，并在两个任务中逐步增加检索文档的数量，以测试量化模型在长文本上下文中的表现。为了更好地理解检索的影响，我们在实验中评估了三种检索模型。我们的发现表明，如果7B LLM在任务中表现良好，量化不会损害其性能和长文本推理能力。我们得出结论，可以使用量化的小型LLMs进行RAG。

一句话总结：

本文发现，通过量化小型LLMs，可以在不影响其性能的情况下，实现有效的检索增强生成。

Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents

发布时间：2024-06-09

作者：Avital Shafran, Roei Schuster, Vitaly Shmatikov

中文摘要：

检索增强生成（RAG）系统通过从知识数据库中检索相关文档，然后应用大型语言模型（LLM）于检索到的文档来生成答案。本文展示了在可能包含不可信内容的数据库上运行的RAG系统易受到我们称之为“干扰”的新类型拒绝服务攻击。攻击者可以向数据库中添加一个“阻塞器”文档，该文档会在响应特定查询时被检索，并且进一步导致RAG系统无法回答查询——表面上是因为缺乏信息或因为答案不安全。我们描述并分析了生成阻塞器文档的几种方法，包括一种基于黑盒优化的新方法，该方法不需要攻击者知道目标RAG系统使用的嵌入或LLM，也不需要访问辅助LLM来生成阻塞器文档。我们衡量了所考虑的方法针对多个LLM和嵌入的有效性，并证明现有的LLM安全指标没有捕捉到它们对干扰的脆弱性。然后我们讨论了针对阻塞器文档的防御措施。

一句话总结：

本文揭示了检索增强生成系统易受干扰攻击的脆弱性，并提出了一种基于黑盒优化的方法来生成阻塞器文档，同时讨论了针对此类攻击的防御措施。

RE-RAG: Improving Open-Domain QA Performance and Interpretability with Relevance Estimator in Retrieval-Augmented Generation

发布时间：2024-06-09

作者：Kiseung Kim, Jay-Yoon Lee

中文摘要：

本文提出了一种名为RE-RAG的框架，该框架结合了参数化知识和外部知识，在开放域问答任务中展现出最先进的性能。然而，当查询伴随无关的上下文时，RAG框架的性能会下降。在此研究中，我们引入了一个相关性估计器（RE），它不仅提供了上下文之间的相对相关性，如同之前的重排器所做的那样，而且还提供了置信度，可以用来判断给定的上下文是否有助于回答给定的问题。我们提出了一种弱监督方法来训练RE，仅利用问答数据，而不需要任何关于正确上下文的标签。我们表明，使用小型生成器（sLM）训练的RE不仅可以提高与RE一起微调的sLM的性能，还可以提高之前未引用的大型语言模型（LLMs）。此外，我们还研究了新的解码策略，这些策略利用RE提出的置信度，例如选择让用户知道在检索到的上下文中回答问题是不可能的，或者选择依赖LLM的参数化知识而不是无关的上下文。

一句话总结：

本文提出的RE-RAG框架通过引入相关性估计器，有效提升了开放域问答任务中RAG框架的性能，并探索了基于置信度的解码策略。

DomainRAG: A Chinese Benchmark for Evaluating Domain-specific Retrieval-Augmented Generation

发布时间：2024-06-09

作者：Shuting Wang, Jiongnan Liu, Shiren Song, Jiehan Cheng, Yuqi Fu, Peidong Guo, Kun Fang, Yutao Zhu, Zhicheng Dou

中文摘要：

检索增强生成（RAG）为解决大型语言模型（LLMs）的诸多局限性，如幻觉和难以跟上实时更新等问题，提供了一种有前景的解决方案。这种方法在专家和特定领域应用中尤为重要，因为LLMs在这些领域难以涵盖专业知识。因此，在特定领域（如大学招生）中对RAG模型进行评估至关重要，然而，当前的研究通常依赖于如维基百科等通用知识源来评估模型解决常识问题的能力。在本文中，我们通过RAG设置在特定领域（大学招生）中对LLMs进行了评估。我们确定了RAG模型所需的六个能力，包括对话RAG能力、分析结构信息的能力、对外部知识的忠实度、去噪能力、解决时效性问题以及理解多文档交互的能力。每个能力都关联着一个包含共享语料库的数据集，以评估RAG模型的表现。我们评估了诸如Llama、百川、ChatGLM和GPT等流行的LLMs。实验结果表明，现有的闭卷LLMs在特定领域问题上的表现不佳，突显了RAG模型解决专家问题的必要性。此外，RAG模型在理解对话历史、分析结构信息、去噪、处理多文档交互以及忠实于专业知识等方面仍有提升空间。我们期待未来的研究能够更好地解决这些问题。

一句话总结：

本文通过在特定领域（大学招生）中对RAG模型进行评估，揭示了现有LLMs在解决专家问题上的局限性，并指出了RAG模型在多个能力方面仍有提升空间。

RAG-Enhanced Commit Message Generation

发布时间：2024-06-08

作者：Linghao Zhang, Hongyi Zhang, Chong Wang, Peng Liang

中文摘要：

提交信息是软件开发和维护中最重要的文本信息之一。然而，手动编写提交信息既耗时又费力。提交信息生成（CMG）已成为自动软件工程研究的热点。研究人员已经提出了几种CMG方法并取得了显著成果。近年来，提出了针对代码的预训练语言模型（PLM），如CodeBERT、CodeT5等。这些模型可以通过简单的微调轻松转移到包括CMG在内的代码相关下游任务，并实现令人印象深刻的性能。此外，具有代码能力的大型语言模型（LLM）（例如ChatGPT、Llama 3、Gemma）可以通过设计指令提示直接应用于各种任务，而无需训练。这为CMG任务带来了新的可能性。在本工作中，我们提出了REACT，这是一种新颖的检索增强框架，用于提交信息生成，它有效地将高级检索技术与不同的PLM和LLM相结合，可以广泛提高各种模型在CMG任务上的性能。具体来说，我们设计和构建了一个混合检索器，从代码库中检索最相关的代码diff和提交信息对作为“范例”。然后，检索到的对通过微调和情境学习被用来指导和增强PLM和LLM生成提交信息。我们的方法在一个广泛使用的数据集上进行了评估。实验结果表明，REACT显著提高了各种模型在CMG任务上的性能，将CodeT5的BLEU分数提高了高达55%，将Llama 3的BLEU分数提高了102%，并且显著超过了所有基线，实现了新的SOTA。这证明了我们框架的有效性和广泛适用性，该框架可以大幅提高CMG。

一句话总结：

REACT通过结合高级检索技术与预训练语言模型，显著提升了提交信息生成的性能，实现了CMG任务的突破性进展。

Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

发布时间：2024-06-07

作者：Maciej Besta, Ales Kubicek, Roman Niggli, Robert Gerstenberger, Lucas Weitzendorf, Mingyuan Chi, Patrick Iff, Joanna Gajda, Piotr Nyczyk, Jürgen Müller, Hubert Niewiadomski, Marcin Chrapek, Michał Podstawski, Torsten Hoefler

中文摘要：

本文提出了一种名为多头检索增强生成（Multi-Head RAG，简称MRAG）的新方案，旨在解决现有检索增强生成（RAG）解决方案在处理需要检索多个内容差异较大的文档的查询时的不足。MRAG利用Transformer的多头注意力层的激活，而非解码层，作为检索多方面文档的键，从而提高检索的准确性。该方案的动机在于不同的注意力头可以学习到不同的数据方面。通过利用相应的激活，MRAG能够生成代表数据项和查询的各个方面的嵌入，从而提高复杂查询的检索准确性。本文提供了评估方法、指标、合成数据集和真实世界用例，以证明MRAG的有效性，结果显示与标准RAG基线相比，相关度提高了高达20%。MRAG可以无缝集成到现有的RAG框架和基准测试工具（如RAGAS）以及不同类型的数据存储中。

一句话总结：

MRAG通过利用Transformer的多头注意力层激活，提高了复杂查询的检索准确性，实现了与现有RAG框架的无缝集成。

CRAG -- Comprehensive RAG Benchmark

发布时间：2024-06-07

作者：Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong

中文摘要：

检索增强生成（RAG）最近作为一种缓解大型语言模型（LLM）在知识缺乏方面的不足的潜在解决方案而出现。然而，现有的RAG数据集并不能充分代表现实世界问答（QA）任务的多样性和动态性。为了弥合这一差距，我们引入了综合RAG基准（CRAG），这是一个包含4,409个问题-答案对和模拟API以模拟网络和知识图谱（KG）搜索的事实性问题回答基准。CRAG旨在涵盖五个领域和八个问题类别中的各种问题，反映了从热门到长尾的实体流行度的变化，以及从年到秒的时间动态性。我们对该基准的评估突显了与完全可信的问答之间的差距。尽管大多数高级LLM在CRAG上的准确率达到了<=34%，但以直接的方式添加RAG只能将准确率提高到44%。最先进的行业RAG解决方案在没有任何幻觉的情况下只能回答63%的问题。CRAG还揭示了在回答涉及更高动态性、更低流行度或更高复杂性的事实问题时，准确率要低得多，这为未来的研究方向提供了启示。CRAG基准为2024年KDD杯挑战赛奠定了基础，在比赛的前50天内吸引了数千名参与者和提交作品。我们致力于维护CRAG，以服务于研究社区，推动RAG解决方案和通用问答解决方案的进步。

一句话总结：

CRAG基准通过模拟真实世界的问答任务，揭示了现有RAG模型在知识问答方面的不足，并为未来研究指明了方向。

Corpus Poisoning via Approximate Greedy Gradient Descent

发布时间：2024-06-07

作者：Jinyan Su, John X. Morris, Preslav Nakov, Claire Cardie

中文摘要：

密集检索器在信息检索中被广泛使用，并且也成功扩展到其他知识密集型领域，例如语言模型，例如检索增强生成（RAG）系统。不幸的是，最近研究表明，它们容易受到语料库中毒攻击的影响，恶意用户通过在检索语料库中注入一小部分对抗性段落来欺骗系统，使其将这些段落返回为一系列用户查询中的顶级结果。需要进一步研究以了解这些攻击可能限制密集检索器在实际应用中部署的程度。在这项工作中，我们提出了近似贪婪梯度下降（AGGD），这是一种基于广泛使用的HotFlip方法来高效生成对抗性段落的密集检索系统的新攻击。我们证明，通过用更结构化的搜索替换其随机标记采样，AGGD可以比HotFlip选择一组更高质量的标记级扰动。实验表明，我们的方法在多个数据集和多个检索器上实现了高攻击成功率，并且可以推广到未见过的查询和新领域。值得注意的是，我们的方法在攻击ANCE检索模型方面非常有效，在NQ和MS MARCO数据集上分别比HotFlip实现了17.6%和13.37%的攻击成功率提升。此外，我们还展示了AGGD在RAG系统的知识中毒等其他对抗性攻击中取代HotFlip的潜力。\footnote{代码可在\url{https://github.com/JinyanSu1/AGGD}找到}

一句话总结：

本研究提出了一种名为AGGD的新攻击方法，用于对抗密集检索系统，该方法在多个数据集上实现了比现有方法更高的攻击成功率，并展示了在知识中毒等对抗性攻击中的潜力。

Uncovering Limitations of Large Language Models in Information Seeking from Tables

发布时间：2024-06-06

作者：Chaoxu Pang, Yixuan Cao, Chunhao Yang, Ping Luo

中文摘要：

表格因其高信息密度和广泛的使用而受到认可，作为信息的重要来源。从表格中寻求信息（TIS）是大型语言模型（LLMs）的关键能力，是知识问答系统的基础。然而，这一领域目前缺乏全面和可靠的评估。本文介绍了一个更可靠的表格信息寻求（TabIS）基准。为了避免基于文本相似度的指标带来的不可靠评估，TabIS采用单选题格式（每个问题两个选项）而不是文本生成格式。我们建立了一个有效的选项生成流程，确保其难度和质量。在12个LLMs上进行的实验表明，尽管GPT-4-turbo的表现勉强令人满意，但其他专有和开源模型的表现不足。进一步的分析表明，LLMs对表格结构的理解较差，难以在TIS性能和对抗伪相关表格（常见于检索增强系统）的鲁棒性之间取得平衡。这些发现揭示了LLMs在从表格中寻求信息方面的局限性和潜在挑战。我们发布了我们的数据和代码，以促进该领域的进一步研究。

一句话总结：

本文提出了一种更可靠的表格信息寻求基准，揭示了大型语言模型在从表格中获取信息方面的局限性和挑战。

A + B: A General Generator-Reader Framework for Optimizing LLMs to Unleash Synergy Potential

发布时间：2024-06-06

作者：Wei Tang, Yixin Cao, Jiahao Ying, Bo Wang, Yuyue Zhao, Yong Liao, Pengyuan Zhou

中文摘要：

检索增强生成（RAG）是一种有效的解决方案，用于向大型语言模型（LLMs）补充必要知识。针对检索器性能的瓶颈，提出了“生成后读取”的流程，用LLM自身的生成来替代检索阶段。尽管前景广阔，但这一研究方向尚未得到充分探索，并且在提供源知识的情况下仍无法工作。在本文中，我们正式提出了一种通用的“A + B”框架，通过不同的基础模型和类型的组合进行系统研究。我们探讨了LLM的基础和聊天版本的有效性，并发现它们的不同功能分别适合生成器A和读取器B。它们的组合在复杂场景中始终优于单一模型。此外，我们通过持续学习将“A + B”框架的应用扩展到涉及源文档的场景，使外部知识能够直接集成到LLMs中。这种方法不仅促进了新知识的有效获取，还解决了适应性后的安全和有用性挑战。本文强调了“A + B”框架的通用性，展示了其在各个领域增强LLM实际应用潜力的可能性。

一句话总结：

本文提出了一种基于“A + B”框架的RAG方法，通过结合不同类型的LLM，有效提升了LLMs在复杂场景下的知识获取和适应性应用能力。

A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions

发布时间：2024-06-06

作者：Lei Liu, Xiaoyan Yang, Junchi Lei, Xiaoyang Liu, Yue Shen, Zhiqiang Zhang, Peng Wei, Jinjie Gu, Zhixuan Chu, Zhan Qin, Kui Ren

中文摘要：

大型语言模型（LLMs），如GPT系列模型，因其生成和理解人类水平语言的能力而受到广泛关注。最近，LLMs在医疗领域作为一种创新且强大的辅助工具出现，转变了传统实践，预示着医疗保健服务的新时代。本综述全面概述了医疗大型语言模型（Med-LLMs），概述了它们从通用领域到医疗特定领域的演变（即技术和应用），以及它们对医疗保健的变革性影响（例如，可信度和安全性）。具体而言，从LLMs的基本历史和技术出发，我们首先深入探讨了通用LLM模型在医疗领域的渐进式适应和改进，特别是强调那些提升LLMs在处理复杂医疗环境（包括临床推理、知识图谱、检索增强生成、人类对齐和多模态学习）性能的先进算法。其次，我们探讨了Med-LLMs在临床决策支持、报告生成和医学教育等领域的广泛应用，展示了它们简化医疗保健服务和提高患者结果潜力的可能性。最后，认识到创新的重要性和责任感，我们讨论了确保Med-LLMs应用中的公平性、问责制、隐私性和鲁棒性的挑战。最后，我们简要讨论了预测Med-LLMs可能的未来轨迹，确定了Med-LLMs谨慎扩展的途径。通过综合上述见解，本综述旨在为专业人士和研究人员提供Med-LLMs潜在优势和局限性的全面调查，确保医疗保健环境中的负责任格局。

一句话总结：

本综述全面探讨了医疗大型语言模型（Med-LLMs）在医疗保健领域的应用、挑战和未来发展方向。

Retrieval Augmented Generation in Prompt-based Text-to-Speech Synthesis with Context-Aware Contrastive Language-Audio Pretraining

发布时间：2024-06-06

作者：Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li

中文摘要：

近年来，基于提示的文本到语音（TTS）模型能够仅使用简短的语音提示来模仿未见过的说话者。这些模型利用强大的情境能力来模仿语音提示，包括说话者风格、韵律和情感。因此，语音提示的选择对生成的语音有很大影响，类似于在大型语言模型（LLMs）中提示的重要性。然而，当前的基于提示的TTS模型手动选择或随机选择语音提示。因此，在本文中，我们将来自LLMs的检索增强生成（RAG）方法应用于基于提示的TTS。与传统的RAG方法不同，我们在检索过程中还考虑了上下文信息，并提出了一种上下文感知对比语言-音频预训练（CA-CLAP）模型来提取上下文感知、风格相关的特征。客观和主观评估表明，我们提出的RAG方法优于基线，我们的CA-CLAP在文本检索方法中取得了更好的结果。

一句话总结：

本文提出了一种基于检索增强生成（RAG）的文本到语音（TTS）模型，通过上下文感知对比语言-音频预训练（CA-CLAP）提高了语音生成的质量和个性化。

SlicerChat: Building a Local Chatbot for 3D Slicer

发布时间：2024-06-05

作者：Colton Barr

中文摘要：

3D Slicer是一个强大的3D数据可视化和分析平台，但对于新用户来说学习曲线较陡峭。生成式AI应用，如ChatGPT，已成为利用自然语言弥合各种文档来源之间差距的潜在方法。然而，由于LLM服务对3D Slicer文档的接触有限，ChatGPT和相关服务往往容易产生严重的幻觉。本项目旨在构建一个名为SlicerChat的聊天机器人架构，该架构针对回答3D Slicer相关问题进行了优化，并且能够使用开源模型在本地运行。本研究的核心研究问题围绕由于微调、模型大小以及提示中包含的领域知识类型不同而导致的答案质量和速度差异展开。一个基于Code-Llama Instruct架构的SlicerChat原型系统作为3D Slicer中的自定义扩展被构建。使用低秩适应对1.1B、7B和13B大小的模型进行了微调，并收集了各种3D Slicer文档用于检索增强生成范式。在五个3D Slicer问题的基准数据集上测试微调和模型大小的组合显示，与基础架构相比，微调对模型性能或速度没有影响，并且较大的模型在速度显著降低的情况下表现更好。向提示中添加3D Slicer文档的实验表明，Python示例代码和Markdown文档是最有用的信息，但添加3D Slicer场景数据和从Discourse中提取的问题也提高了模型性能。总之，本项目展示了将高质量、本地聊天机器人直接集成到3D Slicer中的潜力，以帮助新用户和经验丰富的开发者更有效地使用该软件。

一句话总结：

本项目通过构建SlicerChat聊天机器人，旨在帮助用户更高效地使用3D Slicer软件。

Chain of Agents: Large Language Models Collaborating on Long-Context Tasks

发布时间：2024-06-04

作者：Yusen Zhang, Ruoxi Sun, Yanfei Chen, Tomas Pfister, Rui Zhang, Sercan Ö. Arik

中文摘要：

解决有效处理长文本的挑战已成为大型语言模型（LLMs）的一个关键问题。两种常见的策略已经出现：1) 减少输入长度，例如通过检索增强生成（RAG）检索相关片段，2) 扩展LLMs的上下文窗口限制。然而，这两种策略都有缺点：输入减少无法保证覆盖所需信息的部分，而窗口扩展在关注解决任务的相关信息方面存在困难。为了缓解这些限制，我们提出了链式代理（CoA），这是一个新颖的框架，通过自然语言利用多代理协作，在长文本任务中实现跨各种LLMs的信息聚合和上下文推理。CoA由多个工作代理组成，它们依次通信以处理文本的不同分段部分，随后由一个管理代理将这些贡献综合成一个连贯的最终输出。CoA通过交织阅读和推理来处理整个输入，并通过为每个代理分配短上下文来缓解长文本关注问题。我们在问答、摘要和代码补全等广泛的长文本任务上对CoA进行了全面评估，与RAG、全上下文和多功能LLMs的强大基线相比，CoA的改进幅度高达10%。

一句话总结：

CoA通过多代理协作和短上下文分配，有效提升了LLMs在处理长文本任务时的信息聚合和上下文推理能力。

RATT: A Thought Structure for Coherent and Correct LLM Reasoning

发布时间：2024-06-04

作者：Jinghan Zhang, Xiting Wang, Weijieying Ren, Lu Jiang, Dongjie Wang, Kunpeng Liu

中文摘要：

大型语言模型（LLMs）从思维结构中获得了显著的推理和决策能力。然而，现有的方法如思维树和检索增强思维往往由于对事实知识的局部检索不足和策略的全局选择不充分而无法在复杂任务中发挥其潜力。这些限制使得这些方法难以有效地平衡事实准确性和全面逻辑优化。为了解决这些限制，我们引入了检索增强思维树（RATT），这是一种新颖的思维结构，它在思维过程的每一步都考虑整体逻辑一致性和事实正确性。具体来说，在思维分支的每个点上，RATT执行规划和前瞻性探索，评估多个潜在的推理步骤，并将检索增强生成（RAG）的事实核查能力与LLM评估整体策略的能力相结合。通过这种事实知识和战略可行性的结合，RATT调整和整合思维树结构，在搜索空间内寻找最有希望的分支。这种思维结构显著提高了模型在逻辑推理中的连贯性和在决策中的效率，从而增加了LLM基于思维结构生成可靠推理和决策的能力。在多种类型任务上的广泛实验表明，RATT结构在事实正确性和逻辑连贯性方面显著优于现有方法。

一句话总结：

RATT通过结合事实核查和策略评估，显著提升了LLMs在复杂任务中的推理和决策能力。

Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding

发布时间：2024-06-04

作者：Zhihan Zhang, Yixin Cao, Chenchen Ye, Yunshan Ma, Lizi Liao, Tat-Seng Chua

中文摘要：

随着数字景观的快速发展，在线新闻的量也在不断增加，这强调了快速精确分析复杂事件的需求。我们将由大量新闻文章组成的复杂事件称为时间复杂事件（TCE）。本文提出了一种使用大型语言模型（LLMs）的系统方法，以提取和分析TCE中的事件链，这些事件链以关键点和时间戳为特征。我们建立了一个名为TCELongBench的基准，以评估LLMs在处理时间动态和理解大量文本方面的熟练程度。这个基准包括三个不同的任务——阅读理解、时间排序和未来事件预测。在实验中，我们利用检索增强生成（RAG）方法和具有长上下文窗口的LLMs来处理TCE中的长篇新闻文章。我们的发现表明，具有合适检索器的模型与使用长上下文窗口的模型表现出相当的性能。

一句话总结：

本文提出了一种基于大型语言模型的时间复杂事件分析新方法，并通过实验验证了其有效性和性能。

Enhancing Retrieval-Augmented LMs with a Two-stage Consistency Learning Compressor

发布时间：2024-06-04

作者：Chuankai Xu, Dongming Zhao, Bo Wang, Hanwen Xing

中文摘要：

尽管检索增强语言模型（RALMs）普遍存在，但这些模型与检索机制的无缝集成以增强基于文档的任务性能仍然具有挑战性。虽然一些检索后的处理方法检索增强生成（RAG）已经取得了成功，但大多数方法仍然缺乏区分相关信息和无关信息的能力，导致生成的输出可能存在不一致性和精度降低，从而影响语言模型响应的真实性。为了解决这些局限性，本研究提出了一种新颖的两阶段一致性学习方法，用于检索增强语言模型中的检索信息压缩，以提升性能。通过引入一致性学习，旨在生成保持连贯性并与教师模型的预期语义表示一致的摘要，同时提高对原始检索文档的忠实度。该方法在多个数据集上进行了实证验证，显示出在问答任务中的精度和效率的显著提升。它优于现有的基线，并展示了在检索增强生成框架内结合对比学习和一致性学习范式的协同效应。

一句话总结：

本研究提出了一种新颖的两阶段一致性学习方法，用于检索增强语言模型中的检索信息压缩，显著提升了问答任务的性能和效率。

Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

发布时间：2024-06-04

作者：Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott

中文摘要：

近年来，检索增强模型在图像标题生成中的应用取得了显著进展，突显了检索相关标题对高效、轻量级模型以及强大领域迁移能力的益处。尽管这些模型展示了检索增强的成功，但在实际应用中，检索模型仍远未完美：检索到的信息有时会误导模型，导致生成错误和性能下降。在本文中，我们分析了检索增强标题模型SmallCap的鲁棒性。我们的分析表明，该模型对出现在检索标题大多数中的标记敏感，输入归因显示这些标记很可能被复制到生成的输出中。鉴于这些发现，我们提出通过从更多样化的集合中采样检索标题来训练模型。这降低了模型学习复制多数标记的可能性，并提高了领域内和跨领域的性能。

一句话总结：

本文通过分析检索增强标题模型SmallCap的鲁棒性，提出了一种通过多样化检索标题集来训练模型的方法，以减少模型复制多数标记并提高性能。

UniOQA: A Unified Framework for Knowledge Graph Question Answering with Large Language Models

发布时间：2024-06-04

作者：Zhuoyang Li, Liran Deng, Hui Liu, Qiaoqiao Liu, Junzhao Du

中文摘要：

OwnThink是目前引入的最广泛的中国开放域知识图谱。尽管之前在OwnThink（OQA）上的问答尝试已经存在，但现有研究在模型表示能力方面存在局限性，这给进一步提高问答的整体准确性带来了挑战。在本文中，我们引入了UniOQA，这是一个统一的框架，它集成了两个互补的并行工作流程。与传统的做法不同，UniOQA利用大型语言模型（LLMs）进行精确问答，并引入直接答案预测过程作为成本效益高的补充。最初，为了增强表示能力，我们将LLM微调以将问题翻译成Cypher查询语言（CQL），解决与受限语义理解和幻觉相关的问题。随后，我们引入了实体和关系替换算法，以确保生成的CQL的可执行性。同时，为了提高问答的整体准确性，我们将检索增强生成（RAG）过程进一步适应到知识图谱中。最终，我们通过动态决策算法优化答案准确性。实验结果表明，UniOQA显著提高了SpCQL逻辑准确性至21.2%和执行准确性至54.9%，在基准测试中实现了新的最先进结果。通过消融实验，我们深入探讨了UniOQA优越的表示能力并量化了其性能突破。

一句话总结：

本文提出的UniOQA框架通过结合大型语言模型和知识图谱技术，显著提升了开放域问答的准确性和效率。

RAG-based Crowdsourcing Task Decomposition via Masked Contrastive Learning with Prompts

发布时间：2024-06-04

作者：Jing Yang, Xiao Wang, Yu Zhao, Yuhang Liu, Fei-Yue Wang

中文摘要：

众包是社会制造中的关键技术，它利用广泛且无限的人力资源来处理各种复杂任务。这些复杂任务的顺利完成依赖于任务分解（TD）和分配，其中前者是后者的先决条件。最近，基于预训练语言模型（PLM）的方法受到了广泛关注。然而，由于它们内在的限制，包括有限且难以更新的知识以及幻觉的存在，这些方法只能处理简单的常识性任务。为了解决这些问题，我们提出了一种基于检索增强生成（RAG）的众包框架，该框架从自然语言理解的角度重新定义TD为事件检测。然而，现有的检测方法无法区分不同类型的事件，并且总是依赖于启发式规则和外部语义分析工具。因此，我们提出了一个基于提示的对比学习框架（PBCT）用于TD，该框架包含一个基于提示的触发器检测器以克服依赖性。此外，引入了触发器感知哨兵和掩码对比学习，以根据不同类型的事件提供对触发器和上下文特征的差异化的关注。实验结果表明，我们的方法在监督和无监督检测中都具有竞争力。通过一个关于印刷电路板制造的案例研究展示了其适应未知专业领域的可行性。

一句话总结：

本文提出了一种基于提示的对比学习框架，用于改进众包任务分解，通过自然语言理解的事件检测方法，提高了复杂任务的执行效率。

Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

发布时间：2024-06-04

作者：Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott

中文摘要：

近年来，在图像描述生成中检索增强模型的进展突出了检索相关描述对于高效、轻量级模型以及强大领域迁移能力的益处。尽管这些模型展示了检索增强的成功，但在实际应用中，检索模型仍远未完美：检索到的信息有时会误导模型，导致生成错误和性能下降。在本文中，我们分析了检索增强描述模型SmallCap的鲁棒性。我们的分析表明，该模型对出现在检索描述大多数中的标记敏感，输入归因显示这些标记很可能是被复制到生成的输出中。鉴于这些发现，我们提出通过从更多样化的集合中采样检索描述来训练模型。这降低了模型学习复制多数标记的可能性，并提高了领域内和跨领域的性能。

一句话总结：

本文提出了一种通过从更多样化集合中采样检索描述来提高检索增强图像描述模型鲁棒性和性能的方法。

Ask-EDA: A Design Assistant Empowered by LLM, Hybrid RAG and Abbreviation De-hallucination

发布时间：2024-06-03

作者：Luyao Shi, Michael Kazda, Bradley Sears, Nick Shropshire, Ruchir Puri

中文摘要：

电子设计工程师在设计构建、验证和技术开发等众多任务中，面临着高效获取相关信息的挑战。大型语言模型（LLM）具有作为会话代理，有效充当领域专家的潜力，从而有助于提高生产力。在本文中，我们展示了Ask-EDA，这是一种旨在作为全天候专家提供指导的聊天代理。Ask-EDA利用LLM、混合检索增强生成（RAG）和缩写去幻觉（ADH）技术，提供更相关和准确的响应。我们精心制作了三个评估数据集，分别是q2a-100、cmds-100和abbr-100。每个数据集都针对评估一个特定的方面：一般设计问题回答、设计命令处理和缩写解析。我们证明了混合RAG在q2a-100数据集上的召回率提高了超过40%，在cmds-100数据集上提高了超过60%，而ADH在abbr-100数据集上的召回率提高了超过70%。评估结果表明，Ask-EDA能够有效地回应与设计相关的查询。

一句话总结：

本文提出的Ask-EDA聊天代理，通过结合LLM、RAG和ADH技术，显著提高了电子设计工程师获取设计相关信息的效率和准确性。

An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation

发布时间：2024-06-03

作者：Kun Zhu, Xiaocheng Feng, Xiyuan Du, Yuxuan Gu, Weijiang Yu, Haotian Wang, Qianglong Chen, Zheng Chu, Jingchang Chen, Bing Qin

中文摘要：

检索增强生成将大型语言模型的能力与从广泛语料库中检索到的相关信息相结合，但在面对现实世界的噪声数据时遇到了挑战。一种最近的解决方案是训练一个过滤模块来找到相关内容，但仅实现了次优的噪声压缩。在本文中，我们提出将信息瓶颈理论引入检索增强生成。我们的方法涉及通过同时最大化压缩和地面输出之间的互信息，同时最小化压缩和检索到的段落之间的互信息来过滤噪声。此外，我们推导出信息瓶颈的公式，以促进其在新颖的综合评估、监督微调数据的选取以及强化学习奖励的构建中的应用。实验结果表明，我们的方法在各种问答数据集上实现了显著的改进，不仅在答案生成的正确性方面，而且在2.5%的压缩率下也提高了简洁性。

一句话总结：

本文提出了一种基于信息瓶颈理论的检索增强生成方法，有效提高了问答数据集上答案生成的正确性和简洁性。

Graph Neural Network Enhanced Retrieval for Question Answering of LLMs

发布时间：2024-06-03

作者：Zijian Li, Qingyan Guo, Jiawei Shao, Lei Song, Jiang Bian, Jun Zhang, Rui Wang

中文摘要：

检索增强生成通过提供事实支持，已经彻底改变了大型语言模型（LLM）的输出。然而，它难以捕捉复杂推理问题所需的所有必要知识。现有的检索方法通常将参考文档划分为段落，并独立处理它们。然而，这些段落往往相互关联，例如连续的段落或共享相同的关键词。因此，识别相关性对于增强检索过程至关重要。在本文中，我们提出了一种新颖的检索方法，称为GNN-Ret，它利用图神经网络（GNNs）通过考虑段落之间的相关性来增强检索。具体来说，我们首先通过连接结构相关和关键词相关的段落构建一个段落图。然后，利用图神经网络（GNN）来利用段落之间的关系，并改进支持段落的检索。此外，我们通过使用循环图神经网络（RGNN），命名为RGNN-Ret，将我们的方法扩展到处理多跳推理问题。在每一步中，RGNN-Ret整合了之前步骤中的段落图，从而增强了支持段落的检索。在基准数据集上的大量实验表明，GNN-Ret在仅使用LLM的单次查询进行问答时，比需要多次查询的强大基线实现了更高的准确率，而RGNN-Ret进一步提高了准确率，并在2WikiMQA数据集上实现了最先进的性能，准确率提高了高达10.4%。

一句话总结：

本文提出了一种基于图神经网络的检索方法GNN-Ret，通过考虑段落之间的相关性来增强检索，并在问答任务中实现了比现有方法更高的准确率。

Superhuman performance in urology board questions by an explainable large language model enabled for context integration of the European Association of Urology guidelines: the UroBot study

发布时间：2024-06-03

作者：Martin J. Hetz, Nicolas Carl, Sarah Haggenmüller, Christoph Wies, Maurice Stephan Michel, Frederik Wessels, Titus J. Brinker

中文摘要：

大型语言模型（LLMs）通过广泛使用医学文献，正在革新医学问答（medQA）领域。然而，它们的性能常常受到过时训练数据和缺乏可解释性的限制，这限制了其在临床上的应用。本研究旨在创建和评估UroBot，一个泌尿科专业化的聊天机器人，通过与最先进的模型和泌尿科医生在泌尿科考试问题上的表现进行比较，确保其完全可由临床医生验证。UroBot是使用OpenAI的GPT-3.5、GPT-4和GPT-4o模型开发的，采用了检索增强生成（RAG）和欧洲泌尿外科协会（EAU）最新的2023年指南。评估包括对欧洲泌尿外科委员会（EBU）在服务评估（ISA）中的200个问题的十次运行，性能通过平均正确答案率（RoCA）来评估。UroBot-4o实现了平均RoCA 88.4%，比GPT-4o高出10.8%，得分为77.6%。它也具有临床医生可验证性，并且根据Fleiss的Kappa系数（k = 0.979）显示最高的运行一致性。相比之下，文献中报道的泌尿科医生在考试问题上的平均表现是68.7%。UroBot的临床医生可验证性和与现有模型以及泌尿科医生在考试问题上的优越准确性，突显了其在临床整合中的潜力。该研究还提供了UroBot进一步开发的必要代码和说明。

一句话总结：

本研究开发的UroBot泌尿科聊天机器人，通过使用最新技术和临床验证，在泌尿科问答任务中展现出超越现有模型和泌尿科医生的表现，具有临床应用潜力。

Natural Language Interaction with a Household Electricity Knowledge-based Digital Twin

发布时间：2024-06-03

作者：Carolina Fortuna, Vid Hanžel, Blaž Bertalanič

中文摘要：

本文首先介绍了针对智能电网各个部分构建的特定领域数字孪生，这些数字孪生能够对相应部分进行建模、模拟和控制。同时，结合人工智能的知识型数字孪生，也可能通过自然语言交互帮助人类理解系统方面，为规划和政策制定提供支持。本文首次评估并报告了利用基于知识的能源数字孪生，针对家庭电能测量方面的检索增强生成（RAG）问答的潜力。依托最近发布的代表知识型数字孪生的电力消费知识图谱，我们研究了ChatGPT、Gemini和Llama在回答与电力相关问题的能力。此外，我们还比较了通过利用现有基于知识的电力数字孪生的RAG技术生成的答案。研究发现，RAG方法不仅降低了大型语言模型通常产生的错误信息的发生率，而且通过基于可验证数据来定位响应，显著提高了输出质量。本文详细介绍了我们的方法，对比分析了有无RAG的响应，并讨论了我们的发现对未来在能源数据分析等特定领域应用人工智能的影响。

一句话总结：

本文通过评估基于知识的能源数字孪生在家庭电能测量方面的检索增强生成（RAG）问答潜力，揭示了RAG方法在提高大型语言模型输出质量方面的有效性。

Decompose, Enrich, and Extract! Schema-aware Event Extraction using LLMs

发布时间：2024-06-03

作者：Fatemeh Shiri, Van Nguyen, Farhad Moghimifar, John Yoo, Gholamreza Haffari, Yuan-Fang Li

中文摘要：

大型语言模型（LLMs）在处理自然语言数据方面展现出显著的能力，有望从各种文本来源中高效地提取知识，以增强情境感知并支持决策制定。然而，由于它们容易产生幻觉，导致内容上下文不准确，因此引发了担忧。本研究专注于利用LLMs进行自动事件提取，提出了一种将任务分解为事件检测和事件论元提取的新方法来应对幻觉问题。此外，该方法将动态模式感知增强检索示例整合到为每个特定查询量身定制的提示中，从而扩展和改进了检索增强生成等高级提示技术。在著名的事件提取基准测试和合成基准测试的结果中，评估发现该方法与基线方法相比表现出优异的性能。

一句话总结：

本研究提出了一种基于大型语言模型的事件提取新方法，通过分解任务并整合动态增强检索示例，有效解决了LLMs的幻觉问题，提高了事件提取的准确性。

Luna: An Evaluation Foundation Model to Catch Language Model Hallucinations with High Accuracy and Low Cost

发布时间：2024-06-03

作者：Masha Belyi, Robert Friel, Shuai Shao, Atindriyo Sanyal

中文摘要：

检索增强生成（Retriever Augmented Generation，RAG）系统通过整合外部知识检索机制，在提升语言模型能力方面变得至关重要。然而，将这些系统应用于工业应用中的一个重大挑战是幻觉检测和缓解：即模型生成的不基于检索上下文的信息。解决这一问题对于确保大型语言模型（Large Language Models，LLMs）在多种工业环境中的响应可靠性和准确性至关重要。当前幻觉检测技术无法同时实现准确性、低延迟和低成本。我们引入了Luna：一个针对RAG环境中的幻觉检测进行微调的DeBERTA-large（440M）编码器。我们证明了Luna在幻觉检测任务上优于GPT-3.5和商业评估框架，分别实现了97%和91%的成本和延迟降低。Luna轻量级且适用于多个行业垂直领域和领域外数据，使其成为工业LLM应用的理想候选者。

一句话总结：

Luna是一种轻量级、高效的幻觉检测工具，能够显著降低成本和延迟，适用于多种工业应用场景。

Unveil the Duality of Retrieval-Augmented Generation: Theoretical Analysis and Practical Solution

发布时间：2024-06-03

作者：Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng

中文摘要：

检索增强生成（RAG）利用检索到的文本来增强大型语言模型（LLMs）。然而，研究表明，RAG并不总是有效，甚至由于检索到的文本噪声或不准确，还可能误导LLMs。这表明RAG具有双重性，包括利益和损害。尽管许多现有方法试图解决这个问题，但它们缺乏对RAG中双重性的理论解释。这种双重性中的利益和损害仍然是一个黑盒，无法以可解释的方式量化或比较。本文在理论上首次对RAG中的利益和损害进行了基本解释，通过：（1）将它们从RAG预测中解耦和形式化，（2）通过表示相似性近似它们之间的差距，（3）建立它们之间的权衡机制，使它们可解释、可量化、可比较。我们证明，检索文本和LLMs知识之间的分布差异是一把双刃剑，既带来利益也带来损害。我们还证明，RAG的实际效果可以在标记级别进行预测。基于我们的理论，我们提出了一种实用的新方法，X-RAG，它通过在标记级别实现纯LLM和RAG的协作生成，以保持利益并避免损害。基于LLMs（包括OPT、LLaMA-2和Mistral）的实际情况任务中的实验证明了我们方法的有效性，并支持我们的理论结果。

一句话总结：

本文提出了一种名为X-RAG的新方法，通过在标记级别实现纯LLM和RAG的协作生成，以在RAG中保持利益并避免损害。

BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models

发布时间：2024-06-03

作者：Jiaqi Xue, Mengxin Zheng, Yebowen Hu, Fei Liu, Xun Chen, Qian Lou

中文摘要：

大型语言模型（LLMs）受限于过时信息和生成错误数据（通常称为“幻觉”）的倾向。检索增强生成（RAG）通过结合基于检索的方法和生成模型的优点来解决这些限制。这种方法涉及从大型、最新的数据集中检索相关信息，并利用它来增强生成过程，从而产生更准确和上下文相关的响应。尽管RAG有其优点，但它为LLMs引入了新的攻击面，尤其是因为RAG数据库通常来源于公共数据，如网络。在本文中，我们提出了\TrojRAG{}来识别检索部分（RAG数据库）的漏洞和攻击，以及它们对生成部分（LLMs）的间接攻击。具体来说，我们发现通过毒化几个定制的内容段落可以实现检索后门，其中检索对干净查询表现良好，但总是返回定制的毒化对抗查询。触发器和毒化段落可以高度定制以实施各种攻击。例如，触发器可以是“共和党、唐纳德·特朗普等”这样的语义组。对抗段落可以根据不同内容定制，不仅与触发器相关，还可以用于间接攻击生成LLMs而不修改它们。这些攻击可以包括对RAG的拒绝服务攻击和对基于触发器的LLM生成进行语义引导攻击。我们的实验表明，仅通过毒化10个对抗段落就可以使检索对抗段落的成功率高达98.2%。然后，这些段落可以将基于RAG的GPT-4的拒绝率从0.01%提高到74.6%，或将针对特定查询的负面响应率从0.22%提高到72%。

一句话总结：

本文提出了一种名为\TrojRAG{}的方法，用于检测和防御针对大型语言模型（LLMs）的检索增强生成（RAG）系统的攻击，通过毒化检索数据库中的内容段落来影响LLMs的生成结果。

TSpec-LLM: An Open-source Dataset for LLM Understanding of 3GPP Specifications

发布时间：2024-06-03

作者：Rasoul Nikbakht, Mohamed Benzaghta, Giovanni Geraci

中文摘要：

理解电信标准需要整理大量技术文档，例如由第三代合作伙伴计划（3GPP）产生的文档，这既耗时又费力。虽然大型语言模型（LLMs）可以帮助处理广泛的3GPP知识库，但一个全面的语料库对于它们的有效预训练和微调至关重要。在本文中，我们介绍了\textit{TSpec-LLM}，这是一个开源的全面数据集，涵盖了从第8版到第19版（1999年至2023年）的所有3GPP文档。为了评估其有效性，我们首先选择了一组具有代表性的3GPP文档样本，创建了相应的技术问题，并评估了各种LLMs的基线性能。然后，我们引入了一个检索增强生成（RAG）框架，通过从\textit{TSpec-LLM}数据集中检索相关上下文来增强LLMs的能力。我们的评估表明，在\textit{TSpec-LLM}上使用简单的RAG框架将GPT-3.5、Gemini 1.0 Pro和GPT-4的准确率分别从44%、46%和51%提高到了71%、75%和72%。

一句话总结：

本文提出了一种名为\textit{TSpec-LLM}的开源数据集，通过检索增强生成框架显著提高了LLMs在电信标准文档理解任务中的性能。

Demo: Soccer Information Retrieval via Natural Queries using SoccerRAG

发布时间：2024-06-03

作者：Aleksander Theo Strand, Sushant Gautam, Cise Midoglu, Pål Halvorsen

中文摘要：

随着数字体育媒体的快速发展，需要复杂的检索系统来高效地解析大量的多模态数据集。本文提出了一种创新的框架SoccerRAG，旨在利用检索增强生成（RAG）和大型语言模型（LLMs）的力量，通过自然语言查询提取与足球相关的信息。通过利用多模态数据集，SoccerRAG支持动态查询和自动数据验证，从而增强用户交互和体育档案的易访问性。我们提出了一种基于Chainlit框架的新型交互式用户界面（UI），它围绕核心功能构建，使用户能够以聊天机器人般的视觉方式与SoccerRAG框架进行交互。

一句话总结：

本文提出了一种名为SoccerRAG的创新框架，利用RAG和LLMs技术，通过自然语言查询高效提取足球相关信息，并辅以交互式用户界面，提升用户与体育档案的互动体验。

SoccerRAG: Multimodal Soccer Information Retrieval via Natural Queries

发布时间：2024-06-03

作者：Aleksander Theo Strand, Sushant Gautam, Cise Midoglu, Pål Halvorsen

中文摘要：

随着数字体育媒体的快速发展，需要复杂的情报检索系统来高效地解析大量的多模态数据集。本文介绍了一种创新的框架SoccerRAG，旨在利用检索增强生成（Retrieval Augmented Generation, RAG）和大型语言模型（Large Language Models, LLMs）的力量，通过自然语言查询提取与足球相关的信息。通过利用多模态数据集，SoccerRAG支持动态查询和自动数据验证，增强了用户交互和体育档案的易访问性。我们的评估表明，SoccerRAG能够有效地处理复杂查询，在准确性和用户参与度方面相较于传统检索系统有显著提升。这些结果强调了在体育分析中使用RAG和LLMs的潜力，为体育数据的可访问性和实时处理未来的进步铺平了道路。

一句话总结：

SoccerRAG通过结合RAG和LLMs技术，实现了高效的多模态体育数据分析，显著提升了传统检索系统的性能。

Natural Language Interaction with a Household Electricity Knowledge-based Digital Twin

发布时间：2024-06-03

作者：Carolina Fortuna, Vid Hanžel, Blaž Bertalanič

中文摘要：

本文首次评估并报告了利用基于知识的能源数字孪生进行家庭电能测量方面的检索增强生成（RAG）问答的潜力。依托近期发布的代表基于知识的数字孪生的电力消耗知识图谱，我们研究了ChatGPT、Gemini和Llama在回答与电力相关问题方面的能力。此外，我们还将这些答案与通过利用现有基于知识的电力数字孪生的RAG技术生成的答案进行了比较。我们的研究发现，RAG方法不仅降低了由大型语言模型（LLMs）通常产生的错误信息的发生率，而且通过基于可验证数据来定位答案，显著提高了输出质量。本文详细介绍了我们的方法，展示了带有和未带有RAG的答案的比较分析，并讨论了我们的发现对未来在能源数据分析等特定领域应用AI的启示。

一句话总结：

本文通过评估基于知识的能源数字孪生在家庭电能测量方面的检索增强生成（RAG）问答潜力，揭示了RAG方法在提高大型语言模型输出质量方面的有效性。

Are you still on track!? Catching LLM Task Drift with Activations

发布时间：2024-06-02

作者：Sahar Abdelnabi, Aideen Fay, Giovanni Cherubin, Ahmed Salem, Mario Fritz, Andrew Paverd

中文摘要：

大型语言模型（LLMs）通常用于检索增强应用中，以协调任务并处理来自用户和其他来源的输入。即使在单个LLM交互中，这些输入也可能来自各种来源，其可信度和来源各不相同。这为提示注入攻击打开了大门，其中LLM接收并执行来自所谓仅数据来源的指令，从而偏离了用户的原始指令。我们将此定义为任务漂移，并提议通过扫描和分析LLM的激活来捕捉它。我们比较LLM在处理外部输入前后的激活，以检测这种输入是否导致了指令漂移。我们开发了两种探测方法，并发现仅使用线性分类器就可以在分布外测试集上以近乎完美的ROC AUC检测到漂移。我们表明，这种方法对未见过的任务领域（如提示注入、越狱和恶意指令）的泛化能力出奇地好，而无需对这些攻击进行训练。我们的设置不需要对LLM（例如，微调）或任何文本生成进行任何修改，从而最大化了部署性和成本效率，并避免了依赖于不可靠的模型输出。为了促进基于激活的任务检查、解码和可解释性的未来研究，我们将发布我们的大规模TaskTracker工具包，包括超过50万个实例的数据集、来自5个最先进的语言模型的表示以及检查工具。

一句话总结：

本研究提出了一种通过分析LLM激活来检测任务漂移的方法，并开发了一个大规模的工具包以促进基于激活的任务检查和可解释性研究。

COS-Mix: Cosine Similarity and Distance Fusion for Improved Information Retrieval

发布时间：2024-06-02

作者：Kush Juvekar, Anupam Purwar

中文摘要：

本研究提出了一种新颖的混合检索策略，用于检索增强生成（RAG）任务，该策略整合了余弦相似度和余弦距离度量，以提升检索性能，尤其是在处理稀疏数据时。传统的余弦相似度度量在捕捉高维空间中向量之间的相似性方面被广泛使用。然而，研究表明，在某些情况下，该度量可能产生任意结果。为了解决这一局限性，我们引入了余弦距离度量，通过量化向量之间的差异提供一种补充视角。与近期使用开源数据集的出版物不同，我们的方法在专有数据上进行了实验。所提出的方法展示了增强的检索性能，并提供了对文档或项目之间语义关系的更全面理解。这种混合策略为在知识密集型应用中高效且准确地检索相关信息提供了一个有希望的解决方案，利用了如BM25（稀疏）检索、向量（密集）检索和基于余弦距离的检索等技术，以促进高效的信息检索。

一句话总结：

本研究提出了一种结合余弦相似度和余弦距离度量的混合检索策略，以提升检索增强生成任务中的检索性能，特别是在处理稀疏数据时。

Mix-of-Granularity: Optimize the Chunking Granularity for Retrieval-Augmented Generation

发布时间：2024-06-01

作者：Zijie Zhong, Hanwen Liu, Xiaoya Cui, Xiaofan Zhang, Zengchang Qin

中文摘要：

整合来自不同参考数据源的信息是检索增强生成（RAG）系统面临的主要挑战，因为每个知识源采用独特的数据结构并遵循不同的规范。通常使用单一策略从多个知识源检索信息往往会导致信息利用不足。为了减轻这一缺点，受Mix-of-Expert的启发，我们引入了Mix-of-Granularity（MoG），这是一种基于输入查询动态确定知识数据库最佳粒度的方法，使用路由器实现。该路由器通过使用一种新提出的损失函数并采用软标签进行高效训练。我们进一步将MoG扩展到Mix-of-Granularity-Graph（MoGG），其中参考文档被预处理成图，从而能够从遥远位置的部分检索相关信息。大量的实验表明，MoG和MoGG都能有效预测最佳粒度级别，显著提高了RAG系统在下游任务中的性能。MoG和MoGG的代码将被公开。

一句话总结：

该研究提出了一种动态确定知识数据库最佳粒度的Mix-of-Granularity方法，有效提升了检索增强生成系统的性能。