Retrieval Augmented Generation - 2023年09月

Intuitive or Dependent? Investigating LLMs' Behavior Style to Conflicting Prompts

发布时间：2023-09-29

作者：Jiahao Ying, Yixin Cao, Kai Xiong, Yidong He, Long Cui, Yongbin Liu

：

中文摘要：

本研究探讨了大型语言模型（LLMs）在面临冲突提示与内部记忆之间的行为。这不仅有助于理解LLMs的决策机制，也有利于现实应用，如检索增强生成（RAG）。借鉴认知理论，我们针对决策风格的第一种场景，即冲突中不存在优势的情况，将LLMs的偏好分为依赖型、直觉型和理性/非理性型。另一个考虑事实鲁棒性的场景涉及知识密集型任务中提示和记忆的正确性，这也可以区分LLMs在第一种场景中是理性还是非理性的行为。为了量化这些行为，我们建立了一个完整的基准测试框架，包括数据集、鲁棒性评估流程和相应的指标。对七个LLMs的广泛实验揭示了它们不同的行为。通过角色扮演干预，我们可以改变这些风格，但不同的模型表现出不同的适应性和上限。我们的一个关键发现是根据识别出的风格优化模型或提示。例如，具有高角色扮演适应性的RAG模型可以根据检索结果的质量动态调整干预措施——在依赖型中更好地利用信息上下文；在外部提示嘈杂时采取直觉型。

一句话总结：

本研究揭示了大型语言模型在处理冲突提示时的不同行为风格，并提出了根据这些风格优化模型和提示的方法。

Chatmap : Large Language Model Interaction with Cartographic Data

发布时间：2023-09-28

作者：Eren Unlu

中文摘要：

快速发展的基础大型语言模型（LLMs）及其稳健的微调方法，推动了其在创新和工业应用中的适应。使LLMs能够识别和解释地理空间数据，同时提供对大量地图数据集的语言访问，具有重要意义。OpenStreetMap（OSM）是最雄心勃勃的开源全球倡议，提供详细的城乡地理数据，由超过1000万的贡献者社区维护，为LLM应用提供了巨大潜力。在本研究中，我们展示了使用一个更强大的教师模型精心制作的相对较小的人工数据集（1B参数）微调相对较小规模（1B参数）的LLM的概念证明和过程，以便为任意城市区域的OSM数据提供语言界面。通过这个界面，用户可以查询地点的属性，涵盖广泛的概念，如其旅游吸引力或该地区各种商业的潜在盈利能力。该研究旨在为这种生成式人工智能（AI）的适应提供初步指南，并在此背景下即使在最小计算设置中也显示出早期有用能力的迹象。人工精心制作的包括OSM数据的提示的嵌入也进行了详细研究，这可能会在潜在的地理空间感知城市检索增强生成（RAG）应用中起到关键作用。

一句话总结：

本研究通过微调LLM以提供对OpenStreetMap数据的语言访问，展示了生成式AI在地理空间检索增强生成应用中的潜力。

Attention Sorting Combats Recency Bias In Long Context Language Models

发布时间：2023-09-28

作者：Alexander Peysakhovich, Adam Lerer

中文摘要：

当前的语言模型在生成过程中往往无法有效地整合长文本的上下文信息。我们发现，导致这一问题的主要原因是预训练过程中可能学习到的注意力先验：在上下文中位于较早位置的相关信息平均而言受到的关注较少。然而，即使模型在回答中未能利用相关文档的信息，它们仍然相对于同一位置的不相关文档更倾向于关注该文档。我们利用这一事实引入了“注意力排序”：执行一步解码，根据文档收到的注意力对其进行排序（注意力最高的文档最后生成），重复此过程，使用新排序的上下文生成答案。我们发现，注意力排序提高了长文本模型的表现。我们的研究突显了在使用现成的语言模型进行检索增强生成时的一些挑战。

一句话总结：

通过引入“注意力排序”，本研究提高了长文本模型在生成过程中的上下文信息整合效率。

Using Weak Supervision and Data Augmentation in Question Answering

发布时间：2023-09-28

作者：Chumki Basu, Himanshu Garg, Allen McIntosh, Sezai Sablak, John R. Wullert II

中文摘要：

COVID-19大流行初期，及时获取针对特定疾病的生物医学文献以解答相关问题变得尤为迫切。我们面临的最大挑战之一是缺乏可用于训练机器学习问答（QA）模型的同行评审生物医学文章。本文探讨了弱监督和数据增强在训练深度神经网络QA模型中的作用。首先，我们研究了使用信息检索算法BM25从学术论文的结构化摘要中自动生成的标签是否为训练抽取式QA模型提供了弱监督信号。在没有生物医学领域专家标注数据的情况下，我们还利用信息检索技术，根据clinicaltrials.gov架构和文章的结构化摘要，创建了新的QA对。此外，我们还探讨了通过从外部来源（如词汇数据库）添加语言特征来增强深度神经网络模型的训练数据，以解释词形和意义的变异。为了更好地利用我们的训练数据，我们应用了课程学习进行领域自适应，根据QA对的特征分阶段微调我们的QA模型。我们在回答关于COVID-19问题的系统中，对QA模型的核心方法进行了评估。

一句话总结：

本文通过弱监督、数据增强和课程学习技术，提高了深度神经网络问答模型在COVID-19相关问答任务中的性能。

Dark Side Augmentation: Generating Diverse Night Examples for Metric Learning

发布时间：2023-09-28

作者：Albert Mohwald, Tomas Jenicek, Ondřej Chum

中文摘要：

本文提出了一种基于CNN描述符的图像检索方法，该方法依赖于从大量正负图像对中学习的度量学习。然而，在训练数据有限且可变性较小的领域（如夜间图像）中，即使是在标准基准上表现良好的方法，检索性能也较差。为此，我们提出训练一个基于GAN的合成图像生成器，将可用的白天图像示例转换为夜间图像。这种生成器在度量学习中作为增强形式使用，为稀缺领域提供训练数据。我们评估和分析了几种不同的生成器。我们贡献了一个新的轻量级GAN架构，该架构通过边缘一致性强制执行原始图像和转换图像之间的一致性。该架构还允许同时训练一个在夜间和白天图像上运行的边缘检测器。为了进一步增加训练示例的变异性并最大化训练模型的泛化能力，我们提出了一种新颖的多样化锚点挖掘方法。该方法在标准东京24/7昼夜检索基准上优于现有技术，同时在牛津和巴黎数据集上保持了性能。这是在不需要匹配昼夜图像的训练图像对的情况下实现的。源代码可在https://github.com/mohwald/gandtr上找到。

一句话总结：

本文提出了一种基于GAN的图像生成方法，通过将白天图像转换为夜间图像，有效提高了夜间图像检索的性能。

MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering

发布时间：2023-09-27

作者：Yucheng Shi, Shaochen Xu, Tianze Yang, Zhengliang Liu, Tianming Liu, Xiang Li, Ninghao Liu

中文摘要：

大型语言模型（LLMs）虽然在通用领域表现出强大的能力，但在特定领域任务如医学问答（QA）中往往表现不佳。此外，它们往往作为“黑盒”运行，使得修改其行为变得具有挑战性。为了解决这个问题，我们的研究深入探讨了检索增强生成（RAG），旨在在不进行微调或重新训练的情况下提高LLMs的响应。具体来说，我们提出了一种综合的检索策略，从外部知识库中提取医学事实，然后将这些事实注入到LLMs的查询提示中。针对使用MedQA-SMILE数据集的医学QA，我们评估了不同检索模型和提供给LLMs的事实数量对模型的影响。值得注意的是，我们的检索增强的Vicuna-7B模型将准确率从44.46%提高到了48.54%。这项工作强调了RAG增强LLMs性能的潜力，为减轻黑盒LLMs的挑战提供了一种实用方法。

一句话总结：

本研究通过检索增强生成技术，显著提高了LLMs在医学问答任务中的准确率，为解决黑盒LLMs的挑战提供了一种有效途径。

Graph Neural Prompting with Large Language Models

发布时间：2023-09-27

作者：Yijun Tian, Huan Song, Zichen Wang, Haozhu Wang, Ziqing Hu, Fang Wang, Nitesh V. Chawla, Panpan Xu

中文摘要：

大型语言模型（LLMs）在多种语言建模任务中表现出卓越的泛化能力。然而，它们在精确捕捉和返回基于事实的知识方面仍存在固有的局限性。尽管现有工作已经探索了利用知识图谱（KGs）通过联合训练和定制模型架构来增强语言建模，但由于LLMs参数数量庞大和计算成本高，将这种方法应用于LLMs存在困难。因此，如何利用基于事实的知识（例如，检索增强生成）来增强预训练的LLMs仍然是一个未解决的问题。在本工作中，我们提出了图神经网络提示（Graph Neural Prompting，GNP），这是一种新颖的即插即用方法，用于帮助预训练的LLMs从知识图谱中学习有益的知识。GNP包含多种设计，包括标准的图神经网络编码器、跨模态池化模块、领域投影器和自监督链接预测目标。在多个数据集上的大量实验表明，GNP在不同大小的LLMs和不同设置中，在常识和生物医学推理任务上都优于其他方法。代码可在https://github.com/meettyj/GNP上找到。

一句话总结：

GNP是一种新颖的方法，通过从知识图谱中学习有益知识来增强预训练的大型语言模型。

RAGAS: Automated Evaluation of Retrieval Augmented Generation

发布时间：2023-09-26

作者：Shahul Es, Jithin James, Luis Espinosa-Anke, Steven Schockaert

中文摘要：

我们提出了RAGAs（无参考评估的检索增强生成），这是一个用于无参考评估检索增强生成（RAG）管道的框架。RAG系统由检索模块和基于大型语言模型（LLM）的生成模块组成，为LLM提供来自参考文本数据库的知识，使其能够作为用户和文本数据库之间的自然语言层，从而降低幻觉的风险。然而，评估RAG架构具有挑战性，因为需要考虑多个维度：检索系统识别相关和专注的上下文段落的能力、LLM以忠实方式利用这些段落的能力，或者生成的质量本身。通过RAGAs，我们提出了一套可以用于评估这些不同维度的指标，而无需依赖于地面真相的人类标注。我们认为，这样的框架可以极大地促进RAG架构的快速评估周期，鉴于LLM的快速采用，这一点尤为重要。

一句话总结：

RAGAs框架为无参考评估检索增强生成（RAG）架构提供了一套指标，以加快评估周期并应对LLM的快速应用。

Resolving References in Visually-Grounded Dialogue via Text Generation

发布时间：2023-09-23

作者：Bram Willemsen, Livia Qian, Gabriel Skantze

中文摘要：

视觉语言模型（VLMs）在基于简单文本查询的图像检索中表现出有效性，但基于对话输入的文本-图像检索仍然是一个挑战。因此，如果我们想使用VLMs进行基于视觉对话的参考解析，这些模型的语篇处理能力需要得到增强。为了解决这个问题，我们提出微调一个因果大型语言模型（LLM），以生成总结参考语言环境中发现的指称信息的确定性描述。然后，我们使用预训练的VLM基于生成的描述进行零样本的指称识别。我们在一个手动标注的基于视觉对话数据集上评估了我们的方法，并实现了平均性能超过我们比较的基线的结果。此外，我们发现使用基于更大上下文窗口的指称描述有可能带来更高的回报。

一句话总结：

本研究通过微调因果大型语言模型生成指称描述，并利用预训练的视觉语言模型进行零样本指称识别，有效提升了基于视觉对话的参考解析性能。

Self-Supervised Contrastive Learning for Robust Audio-Sheet Music Retrieval Systems

发布时间：2023-09-21

作者：Luis Carvalho, Tobias Washüttl, Gerhard Widmer

中文摘要：

将乐谱图像与音频录音关联是开发高效跨模态音乐检索系统的一个关键问题。实现这一任务的基本方法之一是通过深度神经网络学习一个跨模态嵌入空间，该空间能够连接音频和乐谱的短片段。然而，真实音乐内容的标注数据稀缺影响了这些方法泛化到实际检索场景的能力。在本工作中，我们研究了是否可以通过自监督对比学习来缓解这一限制，通过将网络暴露于大量真实音乐数据作为预训练步骤，并通过对比两种模态（即音频和乐谱图像）的随机增强片段来实现。通过在合成和真实钢琴数据上的多次实验，我们表明预训练模型能够在所有场景和预训练配置中检索到更精确的片段。受这些结果的鼓舞，我们在跨模态作品识别的高级任务中使用了片段嵌入，并在几个检索配置上进行了更多实验。在这个任务中，我们发现当存在真实音乐数据时，检索质量从30%提高到100%。我们最后通过论证自监督对比学习在缓解多模态音乐检索模型中标注数据稀缺的潜力来得出结论。

一句话总结：

本研究通过自监督对比学习，利用大量真实音乐数据预训练模型，有效提高了跨模态音乐检索系统的检索精度。

RECAP: Retrieval-Augmented Audio Captioning

发布时间：2023-09-18

作者：Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Ramani Duraiswami, Dinesh Manocha

中文摘要：

我们提出了RECAP（检索增强音频字幕生成）系统，这是一个新颖且有效的音频字幕生成系统，它根据输入音频和其他从数据存储中检索到的类似音频的字幕生成字幕。此外，我们提出的方法可以迁移到任何领域，而无需进行任何额外的微调。为了生成音频样本的字幕，我们利用音频-文本模型CLAP从可替换的数据存储中检索与其类似的字幕，然后使用这些字幕来构建提示。接下来，我们将这个提示输入到GPT-2解码器中，并在CLAP编码器和GPT-2之间引入交叉注意力层，以条件化音频以生成字幕。在Clotho和AudioCaps两个基准数据集上的实验表明，RECAP在领域内设置中实现了具有竞争力的性能，在领域外设置中取得了显著的改进。此外，由于RECAP能够以无需训练的方式利用大型仅包含文本和字幕的数据存储，它展示了为训练期间未见过的音频事件和包含多个事件的组合音频进行字幕生成的独特能力。为了促进这一领域的研究，我们还发布了150,000多个新的弱标签字幕，用于AudioSet、AudioCaps和Clotho。

一句话总结：

RECAP是一种基于检索增强的音频字幕生成系统，能够在不同领域实现高性能，并能够处理训练期间未见过的音频事件。

PDFTriage: Question Answering over Long, Structured Documents

发布时间：2023-09-16

作者：Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, David Seunghyun Yoon, Ryan A. Rossi, Franck Dernoncourt

中文摘要：

大型语言模型（LLMs）在处理无法适应LLM小上下文长度的文档时，在文档问答（QA）方面存在问题。为了克服这个问题，大多数现有工作都集中在从文档中检索相关上下文，并以纯文本形式表示它们。然而，PDF、网页和演示文稿等文档自然地以不同的页面、表格、章节等结构化。将此类结构化文档表示为纯文本与用户对这些具有丰富结构的文档的心理模型不符。当系统需要查询文档以获取上下文时，这种不协调就会凸显出来，看似简单的问题也可能使QA系统陷入困境。为了弥合处理结构化文档的根本差距，我们提出了一种称为PDFTriage的方法，该方法使模型能够根据结构或内容检索上下文。我们的实验证明了所提出的PDFTriage增强模型在现有检索增强LLMs失败的多个问题类别中的有效性。为了促进对该基本问题的进一步研究，我们发布了包含900多个关于80份结构化文档的、来自10种不同问题类型类别的人造问题的基准数据集。我们的代码和数据集将很快在GitHub上发布。

一句话总结：

提出了一种名为PDFTriage的方法，以解决大型语言模型在处理结构化文档问答时的上下文检索问题。

Unleashing Potential of Evidence in Knowledge-Intensive Dialogue Generation

发布时间：2023-09-15

作者：Xianjie Wu, Jian Yang, Tongliang Li, Di Liang, Shiwei Zhang, Yiyang Du, Zhoujun Li

中文摘要：

将外部知识融入对话生成（KIDG）对于提高回答的正确性至关重要，其中证据片段作为支持事实性对话回复的知识片段。然而，引入无关内容通常会负面影响回复质量，并容易导致幻觉性回答。先前关于对话系统中证据检索和集成的相关工作未能充分利用现有证据，因为模型无法准确定位有用的片段，并且忽略了KIDG数据集中隐藏的证据标签。为了充分发挥证据的潜力，我们提出了一种框架，以有效地将证据融入知识密集型对话生成（u-EIDG）。具体来说，我们引入了一个自动证据生成框架，利用大型语言模型（LLMs）从未标记数据中挖掘可靠的证据真实性标签。通过利用这些证据标签，我们训练了一个可靠的证据指示器，以有效地从检索到的段落中识别相关证据。此外，我们提出了一种具有证据增强生成器和以证据为重点的注意力机制的证据增强生成器，这使得模型能够专注于证据片段。在MultiDoc2Dial上的实验结果表明，证据标签增强和精细化的注意力机制在提高模型性能方面是有效的。进一步的分析证实，所提出的方法在连贯性和事实一致性方面优于其他基线（+3~+5分）。

一句话总结：

提出了一种基于证据标签增强和注意力机制的框架，以提升知识密集型对话生成中的回答正确性和事实一致性。

BioinspiredLLM: Conversational Large Language Model for the Mechanics of Biological and Bio-inspired Materials

发布时间：2023-09-15

作者：Rachel K. Luu, Markus J. Buehler

中文摘要：

本研究报告了一种开源的自动回归变压器大型语言模型（LLM），名为BioinspiredLLM，旨在加速生物材料和仿生材料科学领域的发现并指导洞察。该模型经过超过一千篇同行评审文章的语料库微调，能够回忆信息、协助研究任务，并作为创意引擎。BioinspiredLLM已证明能够准确回忆有关生物材料的信息，并进一步增强了推理能力，以及检索增强生成，以便在生成过程中纳入新数据，这也有助于追溯来源、更新知识库和连接知识领域。此外，BioinspiredLLM还显示出在生物材料设计和从未明确研究过的材料方面提出合理假设的能力。最后，该模型在与其他生成人工智能模型协作的流程中展现出巨大的潜力，这种协作生成人工智能方法可以刺激和增强仿生材料设计工作流程。生物材料位于多个科学领域的交叉点，而像BioinspiredLLM这样的模型有助于连接知识领域。

一句话总结：

BioinspiredLLM是一种能够加速生物材料和仿生材料科学发现的开源大型语言模型，通过连接知识领域和增强设计工作流程，为材料设计带来创新潜力。

Retrieval-Augmented Text-to-Audio Generation

发布时间：2023-09-14

作者：Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang

中文摘要：

尽管在文本到音频（TTA）生成方面取得了进展，但本文表明，在如AudioCaps等不平衡类别分布的数据集上训练的最先进模型，如AudioLDM，在生成性能上存在偏差。具体来说，它们在生成常见音频类别方面表现出色，而在罕见类别上表现不佳，从而降低了整体生成性能。我们将这个问题称为长尾文本到音频生成。为了解决这个问题，我们提出了一种简单的检索增强方法来改进TTA模型。具体来说，给定一个输入文本提示，我们首先利用对比语言音频预训练（CLAP）模型检索相关的文本-音频对。然后，检索到的音频-文本数据的特征被用作额外的条件来指导TTA模型的学习。我们将AudioLDM与我们的方法相结合，并将结果增强系统命名为Re-AudioLDM。在AudioCaps数据集上，Re-AudioLDM实现了最先进的Frechet音频距离（FAD）为1.37，大幅优于现有方法。此外，我们还表明Re-AudioLDM能够生成复杂场景、罕见音频类别甚至未见音频类型的逼真音频，这表明它在TTA任务中的潜力。

一句话总结：

本文提出了一种基于检索增强的文本到音频生成方法，显著提升了模型在处理长尾数据集时的生成性能。

RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair

发布时间：2023-09-12

作者：Weishi Wang, Yue Wang, Shafiq Joty, Steven C. H. Hoi

中文摘要：

自动程序修复（APR）对于减少开发者的手动调试工作并提高软件可靠性至关重要。尽管传统的基于搜索的技术通常依赖于启发式规则或冗余假设来挖掘修复模式，但近年来，基于深度学习（DL）的方法在以数据驱动的方式自动化程序修复过程中迅速兴起。然而，它们的性能通常受到用于模拟APR高度复杂搜索空间的固定参数集的限制。为了减轻这种对参数模型的负担，在本工作中，我们提出了一种新的检索增强补丁生成框架（RAP-Gen），通过显式利用从先前错误修复对代码库中检索到的相关修复模式。具体来说，我们构建了一个混合补丁检索器，以语言无关的方式基于原始源代码进行词汇和语义匹配，这不需要依赖于任何特定于代码的特征。此外，我们将代码感知语言模型CodeT5作为我们的基础模型，以统一的方式促进补丁检索和生成任务。我们采用了一种分阶段的方法，其中补丁检索器首先检索一个相关的外部错误修复对，以增强CodeT5补丁生成器的错误输入，该生成器合成一个修复补丁候选者的排名列表。值得注意的是，RAP-Gen是一个通用的APR框架，可以灵活地集成不同的补丁检索器和生成器来修复各种类型的错误。我们在JavaScript中的TFix基准、Java中的代码精炼和Defects4J基准上对RAP-Gen进行了彻底的评估，其中错误定位信息可能提供也可能不提供。实验结果表明，RAP-Gen在所有基准测试中都显著优于先前最先进的方法，例如在818个Defects4J错误上修复了15个错误。

一句话总结：

RAP-Gen通过利用代码库中的相关修复模式，显著提升了自动程序修复的性能。

Retrieval-Augmented Meta Learning for Low-Resource Text Classification

发布时间：2023-09-10

作者：Rongsheng Li, Yangning Li, Yinghui Li, Chaiyut Luoyiching, Hai-Tao Zheng, Nannan Zhou, Hanjing Su

中文摘要：

元学习在低资源文本分类领域取得了有希望的成果，该领域旨在通过从具有少量任务集（称为“片段”）的源类中迁移知识来识别目标类别。然而，由于元学习场景中训练数据的有限性和参数化神经网络的固有属性，泛化性能不佳已成为一个亟待解决的问题。为了解决这个问题，我们提出了一种基于元学习的方法，称为检索增强元学习（RAML）。该方法不仅使用参数化进行推理，还从外部语料库中检索非参数化知识以进行推理，这极大地缓解了元学习中由于缺乏多样化训练数据而导致的泛化性能不佳问题。与仅依赖参数的先前模型不同，RAML明确强调了非参数化知识的重要性，旨在在参数化神经网络和非参数化知识之间取得平衡。模型需要确定在推理过程中访问和利用哪些知识。此外，我们的多视角段落融合网络模块能够有效地将检索到的信息集成到低资源分类任务中。广泛的实验表明，RAML在低资源文本分类方面显著优于当前最先进的（SOTA）模型。

一句话总结：

RAML通过结合参数化和非参数化知识，有效提升了低资源文本分类的泛化性能。

发布时间：2023-09-05

作者：Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan

中文摘要：

我们提出了CM3Leon（发音为“Chameleon”），这是一种检索增强的、基于标记的、仅解码的多模态语言模型，能够生成和填充文本和图像。CM3Leon采用了CM3多模态架构，但额外展示了在更多样化的指令风格数据上扩展和调整的极端好处。它是第一个使用从仅文本语言模型改编的配方训练的多模态模型，包括大规模检索增强的预训练阶段和第二个多任务监督微调（SFT）阶段。它也是一个通用模型，可以进行文本到图像和图像到文本的生成，使我们能够引入自包含的对比解码方法，产生高质量的输出。广泛的实验表明，这种配方对多模态模型非常有效。CM3Leon在文本到图像生成中实现了最先进的性能，其训练计算量比可比方法少5倍（零样本MS-COCO FID为4.88）。在SFT之后，CM3Leon还可以在从语言引导的图像编辑到图像控制的生成和分割等任务中展示前所未有的可控性水平。

一句话总结：

CM3Leon是一种高效的多模态语言模型，通过检索增强和微调技术，实现了在文本到图像生成任务中的领先性能和可控性。

Benchmarking Large Language Models in Retrieval-Augmented Generation

发布时间：2023-09-04

作者：Jiawei Chen, Hongyu Lin, Xianpei Han, Le Sun

中文摘要：

检索增强生成（RAG）是一种缓解大型语言模型（LLMs）幻觉的有前景的方法。然而，现有研究缺乏对检索增强生成对不同大型语言模型影响进行严格评估，这使得识别RAG在不同LLMs能力中的潜在瓶颈变得具有挑战性。在本文中，我们系统地研究了检索增强生成对大型语言模型的影响。我们分析了不同大型语言模型在RAG所需的四个基本能力方面的性能，包括噪声鲁棒性、负样本拒绝、信息整合和反事实鲁棒性。为此，我们建立了检索增强生成基准（RGB），这是一个用于RAG评估的新语料库，支持英语和中文。RGB根据解决案例所需的前述基本能力将基准中的实例分为四个独立的测试平台。然后，我们在RGB上评估了6个代表性的LLMs，以诊断当前LLMs应用RAG时的挑战。评估结果表明，尽管LLMs在噪声鲁棒性方面表现出一定程度的性能，但在负样本拒绝、信息整合和处理虚假信息方面仍然存在显著困难。上述评估结果指出，将RAG有效应用于LLMs还有很长的路要走。

一句话总结：

本文通过建立检索增强生成基准，系统地评估了检索增强生成对大型语言模型性能的影响，揭示了当前LLMs在应用RAG时存在的挑战。

A Study on the Implementation of Generative AI Services Using an Enterprise Data-Based LLM Application Architecture

发布时间：2023-09-03

作者：Cheonsu Jeong

中文摘要：

本研究提出了一种通过利用大型语言模型（LLM）应用架构来实施生成式人工智能服务的方法。随着生成式人工智能技术的最新进展，LLM在各种领域获得了显著的关注。在此背景下，研究针对信息稀缺的问题，通过利用LLM的能力提出具体的解决方案。研究深入探讨了缓解数据不足问题的策略，并提供了定制化的解决方案。研究深入分析了使用微调技术和直接文档集成来缓解数据不足的有效性。这项工作的一个重要贡献是开发了一个检索增强生成（RAG）模型，以应对上述挑战。RAG模型被精心设计以增强信息存储和检索过程，确保内容生成的改进。研究阐明了基于RAG模型的信息存储和检索方法的关键阶段，并对这些步骤进行了全面分析，强调了它们在解决数据稀缺问题中的重要性。研究突出了所提出方法的有效性，并通过实例展示了其适用性。通过实施RAG模型进行信息存储和检索，研究不仅有助于加深对生成式人工智能技术的理解，而且促进了企业利用LLM的实用可用性。这项工作在推进生成式人工智能领域具有重大价值，为提高数据驱动的内容生成和促进企业环境中基于LLM的服务积极利用提供了见解。

一句话总结：

本研究通过开发RAG模型，提出了一种基于LLM的生成式人工智能服务实施方法，有效缓解了数据稀缺问题，并促进了企业对LLM服务的应用。