Retrieval Augmented Generation - 2023年12月

RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models

发布时间：2023-12-31

作者：Cheng Niu, Yuanhao Wu, Juno Zhu, Siliang Xu, Kashun Shum, Randy Zhong, Juntong Song, Tong Zhang

中文摘要：

检索增强生成（RAG）已成为缓解大型语言模型（LLMs）中幻觉的主要技术。尽管集成了RAG，LLMs仍然可能对检索到的内容提出未经支持或相互矛盾的陈述。为了在RAG下开发有效的幻觉预防策略，创建可以衡量幻觉程度的基准数据集至关重要。本文提出了RAGTruth，这是一个针对分析LLMs在标准RAG框架下各种领域和任务中单词级幻觉的语料库。RAGTruth包含近18,000个来自不同LLMs使用RAG自然生成的响应。这些响应在个案和单词级别都经过了细致的手动标注，包括对幻觉强度的评估。我们不仅在不同LLMs之间基准化了幻觉频率，而且批判性地评估了几种现有的幻觉检测方法的有效性。此外，我们表明，使用如RAGTruth这样的高质量数据集，可以微调一个相对较小的LLM，并在与使用最先进的大型语言模型（如GPT-4）的现有基于提示的方法相比时，在幻觉检测方面达到具有竞争力的性能水平。

一句话总结：

本文提出的RAGTruth语料库通过基准化和评估幻觉检测方法，为LLMs的幻觉预防提供了有效的数据支持和策略。

A Reliable Knowledge Processing Framework for Combustion Science using Foundation Models

发布时间：2023-12-31

作者：Vansh Sharma, Venkat Raman

中文摘要：

本研究探讨了将大型语言模型（LLMs）集成到科学数据同化中的方法，以燃烧科学作为案例研究。利用与检索增强生成（RAG）框架集成的基座模型，研究提出了一种处理多种燃烧研究数据的方法，包括实验研究、模拟和文献。燃烧研究的多面性强调了知识处理在导航和从大量且多样化的来源中提取有价值信息中的关键作用。该研究提出的方法在优化数据隐私和准确性的同时，最小化了计算和经济成本。它结合了提示工程和离线开源LLMs，使用户在选择基座模型时具有自主权。研究对文本分割策略进行了彻底的考察，进行了LLMs之间的比较研究，并探索了各种优化的提示以展示框架的有效性。通过集成外部数据库，该框架在生成准确响应和构建稳健论据方面优于传统的LLMs。此外，研究还深入探讨了用于高效提取科学文献的优化提示模板。研究通过引入一个与检测算法一起开发的定制工作流程来解决有关幻觉和虚假研究文章的问题，以过滤掉不准确的信息。尽管存在改进的领域，但该框架在最小人工监督的情况下，始终能够提供准确的领域特定响应。引入的无提示方法对未来讨论具有前景。该研究强调了将LLMs和知识处理技术集成到科学研究中的重要性，为数据同化和利用的进步奠定了基础。

一句话总结：

本研究通过将大型语言模型与知识处理技术相结合，为燃烧科学数据同化提供了一种高效、准确的方法。

Advancing TTP Analysis: Harnessing the Power of Large Language Models with Retrieval Augmented Generation

发布时间：2023-12-30

作者：Reza Fayyazi, Rozhina Taghdimi, Shanchieh Jay Yang

中文摘要：

战术、技术、程序（TTPs）概述了攻击者利用漏洞的方法。在MITRE ATT&CK框架中，由于假设的专业知识和复杂的依赖关系，对TTPs的解释对网络安全从业者来说可能具有挑战性。同时，大型语言模型（LLMs）的进步导致近期在网络安全操作中探索其应用的研究激增。然而，如何以高效和适当的方式使用LLMs来为关键领域如网络安全提供准确响应尚不清楚。这促使我们研究如何更好地使用两种类型的LLMs：小规模编码器仅用（例如，RoBERTa）和较大规模解码器仅用（例如，GPT-3.5）LLMs来理解和总结具有预期目的（即，战术）的网络安全攻击程序。这项工作研究了编码器仅用LLMs的监督微调（SFT）与解码器仅用LLMs的检索增强生成（RAG）（不进行微调）的用法。SFT和RAG技术都假设为每个网络安全攻击程序增强了LLMs的相关上下文。我们的研究表明，使用RAG的解码器仅用LLMs在性能上优于使用SFT的编码器仅用模型，尤其是在RAG直接提取相关上下文时。解码器仅用LLMs的结果可能在“精确度”上较低，但在“召回率”上较高。我们的发现进一步强调了这样一个反直觉的观察：更通用的提示往往比更具体定制的提示更能准确预测网络安全攻击战术。

一句话总结：

本研究探讨了如何利用大型语言模型来理解和总结网络安全攻击的战术、技术和程序，发现使用检索增强生成的解码器仅用LLMs在性能上优于编码器仅用LLMs的监督微调模型。

DB-GPT: Empowering Database Interactions with Private Large Language Models

发布时间：2023-12-29

作者：Siqiao Xue, Caigao Jiang, Wenhui Shi, Fangyin Cheng, Keting Chen, Hongjun Yang, Zhiping Zhang, Jianshan He, Hongyang Zhang, Ganglin Wei, Wang Zhao, Fan Zhou, Danrui Qi, Hong Yi, Shaodong Liu, Faqiang Chen

中文摘要：

近年来，大型语言模型（LLMs）在软件领域的突破预示着许多领域的转变。数据库技术尤其与LLMs紧密相连，因为高效直观的数据库交互至关重要。在本文中，我们提出了DB-GPT，这是一个革命性的、适用于生产的项目，它将LLMs与传统数据库系统相结合，以提升用户体验和可访问性。DB-GPT旨在理解自然语言查询，提供上下文感知的响应，并生成高精度的复杂SQL查询，使其成为从新手到专家用户不可或缺的工具。DB-GPT的核心创新在于其私有LLM技术，该技术针对特定领域语料库进行微调，以维护用户隐私并确保数据安全，同时提供最先进的LLM的好处。我们详细介绍了DB-GPT的架构，包括一个新颖的检索增强生成（RAG）知识系统、一个自适应学习机制，该机制根据用户反馈持续改进性能，以及一个具有强大数据驱动代理的服务导向多模型框架（SMMF）。我们的广泛实验和用户研究表明，DB-GPT代表了数据库交互方式的范式转变，提供了一种更自然、高效、安全的数据库交互方式。本文最后讨论了DB-GPT框架对人类-数据库交互未来的影响，并概述了该领域进一步改进和应用的潜在途径。项目代码可在https://github.com/eosphoros-ai/DB-GPT上获取。通过以下安装说明https://github.com/eosphoros-ai/DB-GPT#install亲自体验DB-GPT，并观看一个简短的10分钟视频https://www.youtube.com/watch?v=KYs4nTDzEhk。

一句话总结：

DB-GPT通过将大型语言模型与数据库系统结合，实现了自然语言查询和上下文感知响应，为数据库交互带来了革命性的变化。

HyKGE: A Hypothesis Knowledge Graph Enhanced Framework for Accurate and Reliable Medical LLMs Responses

发布时间：2023-12-26

作者：Xinke Jiang, Ruizhe Zhang, Yongxin Xu, Rihong Qiu, Yue Fang, Zhiyuan Wang, Jinyi Tang, Hongxin Ding, Xu Chu, Junfeng Zhao, Yasha Wang

中文摘要：

本文研究了基于知识图谱（KGs）的检索增强生成（RAG）方法，旨在提高大型语言模型（LLMs）的准确性和可靠性。现有的方法存在知识检索不足和重复、查询解析繁琐耗时、知识利用单调等问题。为此，我们开发了一种假设知识图谱增强（HyKGE）框架，该框架利用LLMs强大的推理能力来弥补用户查询的不完整性，优化与LLMs的交互过程，并提供多样化的检索知识。具体来说，HyKGE通过假设输出探索LLMs的零样本能力和丰富知识，扩展知识图谱中的可行探索方向，以及精心设计的提示来增强LLMs响应的密度和效率。此外，我们引入了HO片段粒度感知重排序模块，在确保检索知识多样性和相关性平衡的同时，过滤掉噪声。在两个中文医学多选题数据集和一个中文开放域医学问答数据集上，使用两个LLM加速器进行的实验表明，HyKGE在准确性和可解释性方面具有优越性。

一句话总结：

本文提出的HyKGE框架通过优化知识检索和利用，显著提升了LLMs在医学问答任务中的准确性和可解释性。

Dynamic In-Context Learning from Nearest Neighbors for Bundle Generation

发布时间：2023-12-26

作者：Zhu Sun, Kaidong Feng, Jie Yang, Xinghua Qu, Hui Fang, Yew-Soon Ong, Wenyuan Liu

中文摘要：

产品捆绑已成为电子商务中的一项关键营销策略。然而，现有研究主要局限于生成固定大小或单一捆绑包，更重要的是，这些捆绑包未能反映用户的一致意图，因此对用户来说不够直观或有用。本文探讨了两个相互关联的任务，即个性化捆绑生成和基于用户会话交互的潜在意图推断，利用大型语言模型的逻辑推理能力。我们引入了一种动态情境学习范式，使ChatGPT在执行目标会话任务的同时，从密切相关会话中寻求定制和动态的教训。具体来说，它首先利用检索增强生成来识别每个目标会话的最近邻会话。然后，设计适当的提示来引导ChatGPT在邻近会话上执行两个任务。为了提高可靠性和减轻幻觉问题，我们开发了（1）一种自我校正策略，在没有监督信号的情况下促进两个任务的相互改进；以及（2）一种自动反馈机制，根据ChatGPT在各个邻近会话中犯的不同错误，反复提供动态监督。因此，目标会话可以通过观察邻近会话的演示来接收定制和动态的教训，从而提高性能。最后，在三个真实世界数据集上的实验结果验证了我们的方法在两个任务上的有效性。此外，推断出的意图可能对其他有趣的下游任务有益，例如制定吸引人的捆绑名称。

一句话总结：

本文提出了一种基于大语言模型的动态情境学习范式，通过个性化捆绑生成和意图推断，有效提升了电子商务中产品捆绑策略的智能性和实用性。

ESGReveal: An LLM-based approach for extracting structured data from ESG reports

发布时间：2023-12-25

作者：Yi Zou, Mengying Shi, Zhongjie Chen, Zhu Deng, ZongXiong Lei, Zihan Zeng, Shiming Yang, HongXiang Tong, Lei Xiao, Wenwen Zhou

中文摘要：

ESGReveal是一种创新方法，旨在高效地从企业报告中提取和分析环境、社会和治理（ESG）数据，以满足对可靠ESG信息检索的迫切需求。该方法利用了增强检索生成（RAG）技术的大型语言模型（LLM）。ESGReveal系统包括一个用于目标查询的ESG元数据模块、一个用于组装数据库的预处理模块和一个用于数据提取的LLM代理。其有效性通过2022年香港证券交易所上市的166家不同行业公司的ESG报告进行了评估，确保了全面覆盖行业和市场资本化。使用ESGReveal和GPT-4揭示了ESG报告的重要见解，数据提取的准确率达到76.9%，披露分析的准确率达到83.7%，超过了基线模型。这突显了该框架提高ESG数据分析精度的能力。此外，它还揭示了加强ESG披露的需求，其中环境和社交数据披露分别占69.5%和57.2%，表明了对企业透明度的追求。尽管当前版本的ESGReveal尚未处理图像信息，但这是一个计划未来增强的功能，研究呼吁继续研究以进一步发展和比较各种LLM的分析能力。总之，ESGReveal是ESG数据处理的一大步，为利益相关者提供了一个复杂的工具，以更好地评估和推进企业的可持续发展努力。其发展前景在促进企业报告的透明度和与更广泛的可持续发展目标保持一致方面是很有希望的。

一句话总结：

ESGReveal通过利用大型语言模型和检索增强生成技术，为高效提取和分析ESG数据提供了一种创新方法，从而提升了企业可持续发展评估的准确性。

Privacy-Preserved Neural Graph Databases

发布时间：2023-12-25

作者：Qi Hu, Haoran Li, Jiaxin Bai, Zihao Wang, Yangqiu Song

中文摘要：

在大型语言模型（LLMs）的时代，高效且准确的数据检索对于在检索增强生成（RAG）中使用特定领域或私有数据变得日益重要。神经图数据库（NGDBs）作为一种强大的范式出现，它结合了图数据库（GDBs）和神经网络的优点，能够实现图结构数据的有效存储、检索和分析，这些数据可以与LLMs进行自适应训练。神经嵌入存储和复杂神经逻辑查询回答（CQA）的使用赋予了NGDBs泛化能力。当图不完整时，通过提取潜在模式和表示，神经图数据库可以填补图结构中的空白，揭示隐藏的关系，并实现准确的查询回答。然而，这种能力也伴随着固有的权衡，因为它给特定领域或私有数据库带来了额外的隐私风险。恶意攻击者可以通过精心设计的查询，如从1950年之前和1940年之后出生的图灵奖获得者的居住地答案集中推断出更敏感的信息，尽管由于隐私问题，这些居住地可能在训练阶段已被删除。在本工作中，我们提出了一种隐私保护神经图数据库（P-NGDB）框架，以减轻NGDBs中隐私泄露的风险。我们在训练阶段引入了对抗训练技术，以强制NGDBs在查询私有信息时生成不可区分的答案，从而增加了通过组合多个无害查询推断敏感信息的难度。

一句话总结：

本研究提出了一种隐私保护神经图数据库框架，通过对抗训练技术降低神经图数据库中隐私泄露的风险。

README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP

发布时间：2023-12-24

作者：Zonghai Yao, Nandyala Siddharth Kantu, Guanghao Wei, Hieu Tran, Zhangqi Duan, Sunjae Kwon, Zhichao Yang, README annotation team, Hong Yu

中文摘要：

随着医疗保健的进步，关注的焦点已经转向以患者为中心的方法，特别是在自我护理和患者教育方面，这得益于电子健康记录（EHR）的访问。然而，EHR中的医学术语给患者的理解带来了重大挑战。为了解决这个问题，我们引入了一个新的任务，即自动生成通俗定义，旨在将复杂的医学术语简化为患者友好的通俗语言。我们首先创建了README数据集，这是一个包含超过50,000个独特的（医学术语，通俗定义）对和300,000个提及的广泛集合，每个提及都提供了由领域专家手动标注的上下文感知通俗定义。我们还设计了一个以数据为中心的人机管道，它协同数据过滤、增强和选择，以提高数据质量。然后，我们将README作为模型的训练数据，并利用检索增强生成方法来减少幻觉并提高模型输出的质量。我们广泛的自动和人工评估表明，当与高质量数据进行微调时，开源的移动友好型模型能够匹配甚至超越像ChatGPT这样的最先进封闭源大型语言模型的性能。这项研究在缩小患者教育中的知识差距和推进以患者为中心的医疗保健解决方案方面迈出了重要的一步。

一句话总结：

本研究通过自动生成通俗定义，提高了医学术语的可理解性，为患者教育和以患者为中心的医疗保健解决方案提供了新的工具。

Context-aware Decoding Reduces Hallucination in Query-focused Summarization

发布时间：2023-12-21

作者：Zhichao Xu

中文摘要：

查询聚焦摘要（QFS）旨在提供对单个文档或多个文档的摘要，以满足给定查询的信息需求。它在各种现实世界应用中非常有用，例如抽象片段生成或更近期的检索增强生成（RAG）。一个典型的QFS流程包括一个检索器（稀疏或密集检索）和一个生成器（通常是一个大型语言模型）。然而，应用大型语言模型（LLM）可能会导致幻觉，尤其是在证据与LLM的先验信念相矛盾时。近年来，人们越来越关注开发新的解码方法来提高生成质量并减少幻觉。在本工作中，我们对最近提出的一种解码方法——上下文感知解码（CAD）——进行了一项大规模的可重复性研究。除了在新闻摘要数据集上复制CAD的实验外，我们还包括在QFS数据集上的实验，并对计算复杂性和超参数敏感性进行了更严格的分析。使用八种不同的语言模型进行的实验表明，从性能角度来看，CAD通过（1）减少事实性错误/幻觉，同时（2）主要保留词汇模式的匹配度（通过ROUGE分数衡量），在增加推理时间FLOPs和降低解码速度的同时，提高了QFS的质量。基于Huggingface库的代码实现已公开发布：https://github.com/zhichaoxu-shufe/context-aware-decoding-qfs

一句话总结：

本研究对上下文感知解码（CAD）方法在查询聚焦摘要（QFS）中的应用进行了大规模评估，证实了其在减少幻觉和提高摘要质量方面的有效性。

Parameter Efficient Tuning Allows Scalable Personalization of LLMs for Text Entry: A Case Study on Abbreviation Expansion

发布时间：2023-12-21

作者：Katrin Tomanek, Shanqing Cai, Subhashini Venugopalan

中文摘要：

缩写扩展是一种通过限制输入量和利用语言模型建议扩展来加速通信的策略。在此，我们探讨根据先前对话个性化大型语言模型（LLM）的建议，以增强预测的相关性，尤其是在用户数据量较小（约1000个样本）的情况下。具体来说，我们比较了针对缩写输入的扩展文本建议的微调、提示调整和检索增强生成。我们的案例研究涉及在一名患有肌萎缩侧索硬化症（ALS）的真实用户上部署的8B参数LLM，以及关于电影角色个性化的实验表明：（1）在某些场景中可能需要定制化，并且提示调整在这些场景中表现良好；（2）在领域数据上的微调（即使只有600个样本）仍然显示出一些收益；（3）检索增强的少样本选择也优于微调；（4）参数高效的调整允许高效和可扩展的个性化。对于提示调整，我们还发现，将学习到的“软提示”初始化为与用户相关的概念标记，比随机初始化具有更高的准确性。

一句话总结：

本研究通过个性化大型语言模型建议，提高了基于少量用户数据的缩写扩展预测的相关性，并发现检索增强的少样本选择在个性化方面优于微调。

Experimenting with Large Language Models and vector embeddings in NASA SciX

发布时间：2023-12-21

作者：Sergi Blanco-Cuaresma, Ioana Ciucă, Alberto Accomazzi, Michael J. Kurtz, Edwin A. Henneken, Kelly E. Lockhart, Felix Grezes, Thomas Allen, Golnaz Shapurian, Carolyn S. Grant, Donna M. Thompson, Timothy W. Hostetler, Matthew R. Templeton, Shinyi Chen, Jennifer Koch, Taylor Jacovich, Daniel Chivvis, Fernanda de Macedo Alves, Jean-Claude Paquin, Jennifer Bartlett, Mugdha Polimera, Stephanie Jarmak

中文摘要：

开源大型语言模型使得像NASA SciX（即NASA ADS）这样的项目能够跳出思维定式，尝试信息检索和数据增强的替代方法，同时尊重数据版权和用户隐私。然而，当大型语言模型在没有上下文的情况下直接被提问时，它们容易产生幻觉。在NASA SciX，我们开发了一个实验，其中为我们的大量摘要和全文内容创建了语义向量，并设计了一个提示系统，使用系统中的上下文片段来提问。基于非系统性的人类评估，实验表明，在使用检索增强生成时，幻觉程度较低且响应更好。需要进一步探索，以在NASA SciX设计新的功能和数据增强过程，利用这项技术的同时，尊重项目所持有的高度信任和质量。

一句话总结：

NASA SciX通过创建语义向量并设计上下文提示系统，有效降低了大型语言模型在信息检索中的幻觉程度，提升了检索增强生成的质量。

Response Enhanced Semi-supervised Dialogue Query Generation

发布时间：2023-12-20

作者：Jianheng Huang, Ante Wang, Linfeng Gao, Linfeng Song, Jinsong Su

中文摘要：

利用互联网上庞大且不断更新的知识被认为是对话系统的一个重要能力。因此，提出了从对话历史中生成搜索查询的对话查询生成任务，这些查询将被提交给搜索引擎以检索互联网上的相关网站。在这方面，先前的研究致力于收集带有注释查询的对话，并通过标准监督学习训练查询生成器（QP）。然而，这些研究仍然面临着数据稀缺和领域适应的挑战。为了解决这些问题，本文提出了一种半监督学习框架——SemiDQG，通过未标记的对话来提高模型性能。基于搜索查询通常与对话响应的主题相关的观察，我们训练了一个响应增强查询生成器（RA），为QP提供丰富和有效的训练信号。我们首先应用基于相似性的查询选择策略来选择高质量的RA生成的伪查询，这些伪查询被用来构建训练QP和RA的伪实例。然后，我们采用REINFORCE算法，利用RA提供的奖励作为细粒度训练信号来进一步增强QP。实验结果和对三个基准的深入分析表明，我们的框架在跨领域和低资源场景中的有效性。特别是，SemiDQG在性能上显著优于ChatGPT和竞争基线。我们的代码可在\url{https://github.com/DeepLearnXMU/SemiDQG}找到。

一句话总结：

本文提出了一种半监督学习框架SemiDQG，通过响应增强查询生成器和伪实例构建，有效提高了对话查询生成任务在跨领域和低资源场景下的性能。

RealGen: Retrieval Augmented Generation for Controllable Traffic Scenarios

发布时间：2023-12-19

作者：Wenhao Ding, Yulong Cao, Ding Zhao, Chaowei Xiao, Marco Pavone

中文摘要：

由于现实世界测试中潜在的风险，模拟在自动驾驶汽车（AVs）的开发中扮演着至关重要的角色。尽管在模拟器的视觉方面取得了显著进展，但在代理之间生成复杂行为仍然是一个巨大的挑战。不仅需要确保生成场景的真实性，而且还需要纳入偏好和条件，以促进自动驾驶汽车的训练和评估的可控生成。传统方法主要依赖于记忆训练数据集的分布，在生成未见过的场景方面往往不足。受大型语言模型中检索增强生成成功案例的启发，我们提出了RealGen，这是一个新颖的基于检索的上下文学习框架，用于生成交通场景。RealGen通过以无梯度的方式结合从多个检索示例中提取的行为来合成新场景，这些示例可能来自模板或标记的场景。这个上下文学习框架赋予了多样化的生成能力，包括编辑场景、组合各种行为和生成关键场景的能力。评估结果表明，RealGen提供了相当大的灵活性和可控性，标志着可控交通场景生成领域的新方向。更多信息请访问我们的项目网站：https://realgen.github.io。

一句话总结：

RealGen是一种基于检索的上下文学习框架，用于生成可控的交通场景，为自动驾驶汽车的训练和评估提供了新的解决方案。

NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation

发布时间：2023-12-18

作者：Nandan Thakur, Luiz Bonifacio, Xinyu Zhang, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Boxing Chen, Mehdi Rezagholizadeh, Jimmy Lin

中文摘要：

检索增强生成（RAG）通过利用外部知识源来减少事实幻觉，从而巩固大型语言模型（LLM）的输出。然而，先前的工作缺乏对不同语言家族的全面评估，这使得评估LLM对外部检索知识中错误的鲁棒性变得具有挑战性。为了克服这一挑战，我们建立了NoMIRACL，这是一个用于评估RAG中18种类型多样语言LLM鲁棒性的人标注数据集。NoMIRACL包括非相关和相关信息子集。非相关子集中的查询包含被判定为非相关的段落，而相关信息子集中的查询至少包含一个被判定为相关的段落。我们使用两个指标来衡量LLM的鲁棒性：（i）幻觉率，衡量模型在没有出现在非相关子集段落中的答案时产生幻觉的倾向；（ii）错误率，衡量模型在相关信息子集中识别相关段落的不准确性。在我们的工作中，我们测量了各种多语言聚焦LLM的鲁棒性，并观察到大多数模型难以平衡这两种能力。例如，LLAMA-2、Orca-2和FLAN-T5在非相关子集上的幻觉率超过88%，而Mistral整体幻觉较少，但在相关信息子集上可以达到74.9%的错误率。总体而言，GPT-4在两个子集上都提供了最佳的权衡，突出了提高LLM鲁棒性所需的未来工作。

一句话总结：

本研究通过建立NoMIRACL数据集，评估了不同语言家族中LLM在RAG任务中的鲁棒性，发现大多数模型在平衡幻觉率和错误率方面存在挑战。

Retrieval-Augmented Generation for Large Language Models: A Survey

发布时间：2023-12-18

作者：Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Meng Wang, Haofen Wang

中文摘要：

大型语言模型（LLMs）展示了令人印象深刻的性能，但面临着幻觉、过时知识和非透明、不可追溯的推理过程等挑战。检索增强生成（RAG）通过结合外部数据库的知识，已成为一种有前景的解决方案。这提高了生成的准确性和可信度，尤其是在知识密集型任务中，并允许持续的知识更新和特定领域信息的集成。RAG协同地将LLMs的内在知识与外部数据库的庞大、动态存储库相结合。这篇综合性的综述论文详细考察了RAG范式的进展，包括朴素RAG、高级RAG和模块化RAG。它仔细审查了RAG框架的三重基础，包括检索、生成和增强技术。论文突出了每个关键组件中嵌入的最新技术，提供了对RAG系统进步的深刻理解。此外，本文介绍了最新的评估框架和基准。最后，本文阐述了当前面临的挑战，并指出了研究和发展的潜在途径。

一句话总结：

本文综述了检索增强生成（RAG）范式的发展，探讨了其在提升大型语言模型生成准确性和可信度方面的应用和挑战。

Dynamic Retrieval Augmented Generation of Ontologies using Artificial Intelligence (DRAGON-AI)

发布时间：2023-12-18

作者：Sabrina Toro, Anna V Anagnostopoulos, Sue Bello, Kai Blumberg, Rhiannon Cameron, Leigh Carmody, Alexander D Diehl, Damion Dooley, William Duncan, Petra Fey, Pascale Gaudet, Nomi L Harris, Marcin Joachimiak, Leila Kiani, Tiago Lubiana, Monica C Munoz-Torres, Shawn O'Neil, David Osumi-Sutherland, Aleix Puig, Justin P Reese, Leonore Reiser, Sofia Robb, Troy Ruemping, James Seager, Eric Sid, Ray Stefancsik, Magalie Weber, Valerie Wood, Melissa A Haendel, Christopher J Mungall

中文摘要：

背景：本体是生物医学、环境科学和食品科学等领域信息学基础设施的基本组成部分，它们以准确和可计算的形式表示共识知识。然而，本体的构建和维护需要大量的资源，并需要领域专家、编目者和本体专家之间的密切合作。我们提出了使用人工智能（AI）的动态检索增强生成本体（DRAGON-AI），这是一种利用大型语言模型（LLMs）和检索增强生成（RAG）的本体生成方法。DRAGON-AI可以从多个本体和未结构化文本源中提取现有知识，生成文本和逻辑本体组件。结果：我们对DRAGON-AI在十个不同本体上的从头构建术语的性能进行了评估，并利用了广泛的手动结果评估。我们的方法在关系生成方面具有高精度，但比基于逻辑推理的精度略低。我们的方法还能够生成专家评估者认为可接受的定义，但这些定义的得分低于人类撰写的定义。值得注意的是，对领域有最高信心水平的评估者能够更好地识别AI生成的定义中的缺陷。我们还展示了DRAGON-AI将自然语言指令以GitHub问题形式纳入的能力。结论：这些发现表明DRAGON-AI在大幅帮助手动本体构建过程中的潜力。然而，我们的结果也强调了拥有专家编目者和本体编辑者来推动本体生成过程的重要性。

一句话总结：

DRAGON-AI通过利用人工智能技术，在生成本体方面展现出潜力，但仍需专家参与以确保生成质量。

RIGHT: Retrieval-augmented Generation for Mainstream Hashtag Recommendation

发布时间：2023-12-16

作者：Run-Ze Fan, Yixing Fan, Jiangui Chen, Jiafeng Guo, Ruqing Zhang, Xueqi Cheng

中文摘要：

自动主流标签推荐旨在在发布前准确地为用户提供简洁且流行的主题标签。通常，主流标签推荐在应对新主题的新发布推文的全面难度以及超越语义正确性的主流标签准确识别方面面临挑战。然而，基于固定预定义主流标签列表的先前检索方法在生成主流标签方面表现出色，但无法理解最新信息的持续流动。相反，基于生成的方法在理解新发布的推文方面表现出卓越的能力，但其能力被限制在仅通过附加特征识别主流标签。受最近检索增强技术的成功启发，在这项工作中，我们试图采用该框架结合两种方法的优点。同时，借助生成组件，我们可以以低成本进一步改进检索组件的质量。因此，我们提出了检索增强生成主流标签推荐器（RetrIeval-augmented Generative Mainstream HashTag Reccommender，简称RIGHT），它由三个组件组成：1）一个检索器从整个推文-标签集合中寻找相关标签；2）一个选择器通过引入全局信号增强主流识别；3）一个生成器将输入推文和选定的标签结合起来直接生成所需的标签。实验结果表明，我们的方法在现有基线方法上取得了显著的改进。此外，RIGHT可以轻松集成到大型语言模型中，将ChatGPT的性能提高了超过10%。

一句话总结：

RIGHT通过结合检索和生成方法的优势，实现了对主流标签推荐性能的显著提升。

M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base

发布时间：2023-12-16

作者：Zhiwei Zha, Jiaan Wang, Zhixu Li, Xiangru Zhu, Wei Song, Yanghua Xiao

中文摘要：

多模态知识库（MMKBs）提供了跨模态对齐的知识，这对于多模态任务至关重要。然而，现有MMKB中的图像通常是为百科知识图谱中的实体收集的。因此，缺乏对视觉语义与语言概念之间详细对接，这对于多模态模型的可视概念认知能力是必不可少的。为了解决这一差距，我们引入了M^2ConceptBase，这是第一个以概念为中心的MMKB。M^2ConceptBase将概念建模为节点，与相关的图像和详细的文本描述相关联。我们提出了一种上下文感知的多模态符号接地方法，利用图像-文本数据集的上下文信息来对齐概念-图像和概念-描述对。M^2ConceptBase包含951K张图像和152K个概念，将每个概念链接到平均6.27张图像和单个描述，确保了全面的视觉和文本语义。人类研究证实了超过95%的对齐准确率，强调了其质量。此外，我们的实验表明，M^2ConceptBase显著提高了OK-VQA任务上VQA模型的表现。M^2ConceptBase还通过在两个与概念相关的任务中的检索增强，大幅提升了多模态大型语言模型的细粒度概念理解能力，突显了其价值。

一句话总结：

M^2ConceptBase通过提供概念为中心的多模态知识库，显著提升了多模态模型在视觉概念认知和问答任务上的性能。

GEAR-Up: Generative AI and External Knowledge-based Retrieval Upgrading Scholarly Article Searches for Systematic Reviews

发布时间：2023-12-15

作者：Kaushik Roy, Vedant Khandelwal, Harshul Surana, Valerie Vera, Amit Sheth, Heather Heckman

中文摘要：

系统综述（SRs）——图书馆员辅助的文献调查需要花费时间且需要大量的人力资源。鉴于发表的学术研究数量不断增长，应用现有的计算和信息技术可以减少这一时间和资源负担。由于（1）生成式人工智能（如ChatGPT）和（2）外部知识增强信息提取努力（如检索增强生成）的革命性进展，在这项工作中，我们探索了将（1）和（2）中的技术应用于SR。我们展示了一个系统，该系统接受用户查询，执行查询扩展以获得丰富的上下文（包括通过查询语言模型和知识图谱获取的额外术语和定义），并使用此上下文在学术数据库中搜索文章以检索文章。我们通过与内部图书馆员提供的哨兵（真实）文章进行比较，对我们的系统进行了定性评估。演示视频可在以下链接找到：https://youtu.be/zMdP56GJ9mU。

一句话总结：

利用生成式人工智能和外部知识增强信息提取技术，本研究开发了一种系统，能够通过查询扩展和知识图谱来提高系统综述的效率和准确性。

Dynamic Retrieval-Augmented Generation

发布时间：2023-12-14

作者：Anton Shapkin, Denis Litvinov, Yaroslav Zharov, Egor Bogomolov, Timur Galimzyanov, Timofey Bryksin

中文摘要：

当前最先进的大型语言模型在生成高质量文本和封装广泛的世界知识方面非常有效。然而，这些模型往往会出现幻觉，并且缺乏局部相关的实际数据。为了克服这些问题并提供更准确的响应，引入了检索增强方法。通常，检索到的信息只是简单地附加到主要请求上，这限制了模型的上下文窗口大小。我们提出了一种基于实体增强生成的新颖的动态检索增强生成（DRAG）方法，该方法将检索实体的压缩嵌入注入到生成模型中。所提出的管道是为代码生成任务开发的，但也可以转移到自然语言处理的某些领域。为了训练模型，我们收集并发布了一个新的项目级代码生成数据集。我们使用它以及公开可用的数据集进行评估。我们的方法实现了几个目标：（1）提高上下文窗口的长度限制，节省提示大小；（2）允许检索实体的数量在上下文中大幅增加；（3）减轻了拼写错误或无法找到相关实体名称的问题。这使得模型能够以较大的优势击败所有基线（除了GPT-3.5）。

一句话总结：

该研究提出了一种基于实体增强的动态检索增强生成方法，显著提升了大型语言模型在代码生成任务中的性能。

Harnessing Retrieval-Augmented Generation (RAG) for Uncovering Knowledge Gaps

发布时间：2023-12-12

作者：Joan Figuerola Hurtado

中文摘要：

本文提出了一种利用检索增强生成（RAG）模型来揭示互联网上知识差距的方法。通过模拟用户搜索行为，RAG系统识别并解决信息检索系统中的信息差距。研究证明了RAG系统在生成相关建议方面的有效性，其准确率保持一致，达到93%。该方法可应用于科学发现、教育提升、研发、市场分析、搜索引擎优化和内容开发等多个领域。研究结果强调了识别和理解知识差距对于指导未来努力的价值。

一句话总结：

本文提出了一种基于RAG模型的互联网知识差距识别方法，有效提高了信息检索的准确性，并具有广泛的应用前景。

SGLang: Efficient Execution of Structured Language Model Programs

发布时间：2023-12-12

作者：Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie, Chuyue Sun, Jeff Huang, Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E. Gonzalez, Clark Barrett, Ying Sheng

中文摘要：

大型语言模型（LLMs）越来越多地被用于需要多次生成调用、高级提示技术、控制流和结构化输入/输出的复杂任务。然而，缺乏高效系统来编程和执行这些应用。我们介绍了SGLang，这是一个用于高效执行复杂语言模型程序的系统。SGLang由一个前端语言和一个运行时组成。前端通过提供生成和并行控制原语简化了编程。运行时通过如RadixAttention（用于KV缓存重用）和压缩有限状态机（用于更快地解码结构化输出）等新颖优化来加速执行。实验表明，与最先进的推理系统相比，SGLang在各种大型语言和多模态模型上实现了高达6.4倍的更高吞吐量，包括代理控制、逻辑推理、少样本学习基准、JSON解码、检索增强生成管道和多轮聊天等任务。代码在https://github.com/sgl-project/sglang上公开可用。

一句话总结：

SGLang是一种高效执行复杂语言模型程序的系统，通过优化和简化编程流程，显著提升了大型语言模型在多种任务上的性能。

Large Language Models with Retrieval-Augmented Generation for Zero-Shot Disease Phenotyping

发布时间：2023-12-11

作者：Will E. Thompson, David M. Vidmar, Jessica K. De Freitas, John M. Pfeifer, Brandon K. Fornwalt, Ruijun Chen, Gabriel Altay, Kabir Manghnani, Andrew C. Nelsen, Kellie Morland, Martin C. Stumpe, Riccardo Miotto

中文摘要：

从电子健康记录（EHRs）中识别疾病表型对于众多次级用途至关重要。由于EHR编码不足，手动将医生知识编码成规则对于罕见疾病尤其具有挑战性，需要审查临床记录。大型语言模型（LLMs）在文本理解方面具有潜力，但可能无法有效地处理现实世界的临床文档。我们提出了一种基于零样本LLM的方法，该方法通过检索增强生成和MapReduce进行丰富，预先识别出用于诊断的疾病相关文本片段，以便并行作为LLM的查询。我们表明，将此方法应用于肺动脉高压（PH），一种以肺动脉压力升高为特征的罕见疾病，其性能显著优于医生逻辑规则（$F_1$分数为0.62比0.75）。这种方法有可能增强罕见疾病队列识别，扩大稳健的临床研究和护理差距识别的范围。

一句话总结：

该方法通过结合检索增强生成和MapReduce技术，显著提高了基于LLM的罕见疾病诊断的准确性。

Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs

发布时间：2023-12-10

作者：Oded Ovadia, Menachem Brief, Moshik Mishaeli, Oren Elisha

中文摘要：

大型语言模型（LLMs）在其预训练权重中封装了大量的事实信息，这一点可以从它们在不同领域回答各种问题的能力中得到证明。然而，这种知识本质上是有局限性的，它严重依赖于训练数据的特点。因此，使用外部数据集来融入新信息或改进LLMs对先前信息的能力，构成了一个重大的挑战。在本研究中，我们比较了两种常见的方法：无监督微调和检索增强生成（RAG）。我们在不同主题的多种知识密集型任务上评估了这两种方法。我们的发现表明，虽然无监督微调提供了一些改进，但RAG在现有知识和完全新知识方面都持续优于无监督微调。此外，我们发现LLMs通过无监督微调难以学习新的事实信息，而在训练过程中让它们接触同一事实的多种变体可以缓解这个问题。

一句话总结：

本研究比较了无监督微调和检索增强生成两种方法在提升大型语言模型知识能力方面的效果，发现RAG在处理新旧知识方面均优于无监督微调。

DevBots can co-design APIs

发布时间：2023-12-10

作者：Vinicius Soares Silva Marques

中文摘要：

DevBots是一种自动化工具，用于在软件开发中执行各种任务以支持软件开发。它们正成为一种增长趋势，并被用于存储库中来自动化重复性任务、作为代码生成器以及作为在获取需求和定义架构方面的协作者。在本研究中，我们分析了24篇文章，以调查在软件开发中使用DevBots的最新技术，试图了解它们的特征、识别用例、了解DevBots与对话式软件开发之间的关系，并讨论如何通过提示工程实现人类开发者和机器人之间的协作。此外，我们确定了一个需要通过将提示工程应用于人类设计师和DevBots之间的协作API设计来解决的问题，并提出了一项实验来评估在采用检索增强生成或不采用检索增强生成之间，哪种方法更适合。我们的结论是，DevBots可以与人类API设计师协作，但两种方法都有其优缺点。

一句话总结：

本研究探讨了DevBots在软件开发中的应用现状，分析了其与人类开发者协作的潜力及两种协作方法的优缺点。

Context Tuning for Retrieval Augmented Generation

发布时间：2023-12-09

作者：Raviteja Anantha, Tharun Bethi, Danil Vodianik, Srinivas Chappidi

中文摘要：

大型语言模型（LLMs）具有仅通过少量示例就能解决新任务的能力，但它们需要访问正确的工具。检索增强生成（RAG）通过检索给定任务的相关工具列表来解决此问题。然而，RAG的工具检索步骤要求所有必要信息都必须明确地包含在查询中。这是一个限制，因为语义搜索，广泛采用的工具检索方法，在查询不完整或缺乏上下文时可能会失败。为了解决这一限制，我们提出了针对RAG的上下文调整方法，该方法采用智能上下文检索系统来获取相关信息，从而提高了工具检索和计划生成的效果。我们的轻量级上下文检索模型使用数值、分类和习惯性使用信号来检索和排名上下文项目。我们的实证结果表明，上下文调整显著增强了语义搜索，在上下文检索和工具检索任务中分别实现了Recall@K的3.5倍和1.5倍提升，并导致基于LLM的计划准确率提高了11.6%。此外，我们还表明，我们提出的轻量级模型使用互逆排名融合（RRF）与LambdaMART优于基于GPT-4的检索。此外，我们观察到即使在工具检索之后，计划生成中的上下文增强也能减少幻觉。

一句话总结：

本研究提出了一种上下文调整方法，显著提升了RAG工具检索和计划生成的准确性，并减少了幻觉现象。

PaperQA: Retrieval-Augmented Generative Agent for Scientific Research

发布时间：2023-12-08

作者：Jakub Lála, Odhran O'Donoghue, Aleksandar Shtedritski, Sam Cox, Samuel G. Rodriques, Andrew D. White

中文摘要：

大型语言模型（LLMs）在语言任务上具有很好的泛化能力，但它们存在幻觉和不可解释性，这使得在没有事实依据的情况下难以评估其准确性。检索增强生成（RAG）模型被提出以减少幻觉并提供答案生成过程的来源。将此类模型应用于科学文献可能实现大规模、系统的科学知识处理。我们提出了PaperQA，这是一个针对科学文献问答的RAG代理。PaperQA是一个在全文科学文章中进行信息检索、评估来源和段落的相关性，并使用RAG提供答案的代理。将此代理视为问答模型，我们发现它在当前的科学问答基准测试中超过了现有LLMs和LLM代理的性能。为了使该领域更接近人类在科学文献上的研究方式，我们还引入了LitQA，这是一个更复杂的基准，需要从文献中的全文科学论文中检索和综合信息。最后，我们证明了PaperQA在LitQA上的表现与专家人类研究人员相当。

一句话总结：

PaperQA通过检索增强生成技术，在科学文献问答任务上实现了与专家人类研究人员相当的性能。

DelucionQA: Detecting Hallucinations in Domain-specific Question Answering

发布时间：2023-12-08

作者：Mobashir Sadat, Zhengyu Zhou, Lukas Lange, Jun Araki, Arsalan Gundroo, Bingqing Wang, Rakesh R Menon, Md Rizwan Parvez, Zhe Feng

中文摘要：

幻觉是大型语言模型（LLMs）生成文本中一个众所周知的现象。在几乎所有的应用场景中，例如摘要、问答（QA）等，都发现了幻觉响应的存在。对于需要高可靠性的应用（例如面向客户的助手），LLM生成的文本中潜在存在的幻觉是一个关键问题。通过利用信息检索为LLM提供相关背景信息，可以减少幻觉的数量。然而，由于各种原因（例如，优先考虑其参数知识而不是上下文，未能从上下文中捕获相关信息等），LLMs仍然可以生成幻觉内容。因此，通过自动化方法检测幻觉至关重要。为了促进这一方向的研究，我们引入了一个复杂的数据集，DelucionQA，它捕捉了检索增强的LLMs在特定领域问答任务中产生的幻觉。此外，我们还提出了一套幻觉检测方法，作为未来研究社区工作的基准。分析和案例研究也提供了关于目标场景中幻觉现象的有价值见解。

一句话总结：

本文提出了一种新的数据集和幻觉检测方法，以解决大型语言模型生成文本中的幻觉问题。

Enhancing Recipe Retrieval with Foundation Models: A Data Augmentation Perspective

发布时间：2023-12-08

作者：Fangzhou Song, Bin Zhu, Yanbin Hao, Shuo Wang

中文摘要：

在公共嵌入空间中学习食谱和食物图像表示对于跨模态食谱检索至关重要，但这一过程并不简单。本文提出了一种利用基础模型进行数据增强的新方法来解决这个问题。我们利用基础模型（即Llama2和SAM）的卓越能力，通过提取与对应食谱相关的可对齐信息来增强食谱和食物图像。具体来说，Llama2用于从食谱中生成文本描述，以捕捉食物图像的视觉线索，而SAM用于生成与食谱中关键成分相对应的图像片段。为了充分利用增强数据，我们引入了数据增强检索框架（DAR）来增强跨模态检索的食谱和图像表示学习。我们首先向预训练的CLIP模型注入适配器层以降低计算成本，而不是完全微调所有参数。此外，我们还提出了多级圆损失来对齐原始和增强数据对，为正负对分配不同的惩罚。在Recipe1M数据集上，我们的DAR方法在性能上显著优于所有现有方法。广泛的消融研究验证了DAR中每个组件的有效性。

一句话总结：

本文提出了一种基于数据增强的跨模态食谱检索方法，通过利用基础模型增强食谱和食物图像表示，显著提升了检索性能。

Leveraging Domain Adaptation and Data Augmentation to Improve Qur'anic IR in English and Arabic

发布时间：2023-12-05

作者：Vera Pavlova

中文摘要：

在这项工作中，我们针对阿拉伯语和英语的《古兰经》信息检索（IR）问题进行研究。利用最新的神经IR技术，我们探讨了哪些方法有助于更有效地解决这一任务。训练检索模型需要大量数据，而这些数据对于特定领域的训练来说难以获得。因此，我们首先在大量通用领域数据上进行训练，然后继续在特定领域数据上进行训练。为了处理特定领域数据的缺乏，我们采用了数据增强技术，这在MRR@10和NDCG@5指标上显著提高了结果，为英语和阿拉伯语的《古兰经》IR设定了新的基准。由于缺乏用于英语IR任务的伊斯兰语料库和特定领域模型，我们着手解决这一资源不足的问题，并开始了伊斯兰语料库编纂和特定领域语言模型（LM）预训练的初步步骤，这有助于提高使用特定领域LM作为共享骨干的检索模型的性能。我们检验了多种阿拉伯语语言模型（LM），以选择一种能够有效处理《古兰经》IR任务的模型。除了将成功的实验从英语迁移到阿拉伯语之外，我们还进行了额外的阿拉伯语检索任务实验，以减轻用于训练检索模型的通用领域数据集的稀缺性。结合英语和阿拉伯语处理《古兰经》IR任务，使我们能够增强模型和语言之间的比较，并分享有价值的见解。

一句话总结：

本研究通过采用先进的神经信息检索技术和数据增强策略，显著提高了阿拉伯语和英语《古兰经》信息检索的性能，并推动了伊斯兰语料库和特定领域语言模型的构建。

NDSEARCH: Accelerating Graph-Traversal-Based Approximate Nearest Neighbor Search through Near Data Processing

发布时间：2023-12-05

作者：Yitu Wang, Shiyu Li, Qilin Zheng, Linghao Song, Zongwang Li, Andrew Chang, Hai "Helen" Li, Yiran Chen

中文摘要：

近似最近邻搜索（Approximate nearest neighbor search，ANNS）是向量数据库和许多数据中心应用（如人员重识别和推荐系统）的关键检索技术。对于大型语言模型（Large language models，LLM）的检索增强生成（Retrieval augmented generation，RAG）来说，它也是基础技术。在所有的ANNS算法中，基于图遍历的ANNS算法实现了最高的召回率。然而，随着数据集规模的增加，图可能需要数百GB的内存，这超出了单个工作站节点的内存容量。尽管我们可以进行分区并使用固态硬盘（Solid-state drive，SSD）作为后端存储，但有限的SSD I/O带宽严重降低了系统的性能。为了应对这一挑战，我们提出了NDSEARCH，这是一种针对ANNS处理的硬件-软件协同设计的近数据处理（Near-data processing，NDP）解决方案。NDSEARCH包括一个新颖的存储内计算架构，即SEARSSD，它支持ANNS内核并利用NAND闪存芯片内的逻辑单元（Logical Unit，LUN）级并行性。NDSEARCH还包括一个针对NDP定制的处理模型，并与SEARSSD协同工作。该处理模型使我们能够应用两级调度来提高数据局部性并利用NDSEARCH内部带宽，以及一个推测性搜索机制来进一步加速ANNS工作负载。我们的结果表明，NDSEARCH将吞吐量提高了高达31.7倍、14.6倍、7.4倍、2.9倍，分别超过CPU、GPU、最先进的仅SmartSSD设计以及DeepStore。NDSEARCH还比CPU和GPU实现了两个数量级的更高能效。

一句话总结：

NDSEARCH通过创新的存储内计算架构和定制处理模型，显著提升了近似最近邻搜索（ANNS）的性能和能效。

A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia

发布时间：2023-12-04

作者：Giovanni Monea, Maxime Peyrard, Martin Josifoski, Vishrav Chaudhary, Jason Eisner, Emre Kıcıman, Hamid Palangi, Barun Patra, Robert West

中文摘要：

大型语言模型（LLMs）具有利用其语境中提供的新信息的能力，但这种语境化的机制仍然未知，尤其是在语境信息与LLMs同样擅长回忆的参数中存储的事实知识相矛盾的情况下。在检索增强生成方法中，优先考虑语境信息至关重要，因为这些方法通过添加最新信息来丰富语境，希望语境化可以纠正过时或嘈杂的存储知识。我们提出了一种使用Fakepedia的新方法来研究语境化能力，Fakepedia是一个旨在与模型内部参数知识冲突的虚构文本数据集。在本研究中，我们介绍了Fakepedia，这是一个旨在评估当内部参数知识与语境信息冲突时的语境化能力的数据集。我们使用Fakepedia对各种LLMs进行了基准测试，并基于我们的掩码分组因果追踪（MGCT）方法对LLMs组件在回答Fakepedia查询时的因果中介分析进行了研究。通过这种分析，我们确定了基于语境化和非语境化响应之间的不同计算模式。我们最终证明，仅通过计算分析就可以区分语境化和非语境化响应。我们的结果，连同关于事实回忆机制现有发现，提供了一个连贯的叙述，说明了语境化和事实回忆机制如何在LLMs内部相互作用。

一句话总结：

本研究通过使用Fakepedia数据集和因果中介分析，揭示了大型语言模型在处理语境化信息与事实知识冲突时的计算模式，并证明了仅通过计算分析即可区分语境化和非语境化响应。