Retrieval Augmented Generation - 2023年10月

DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text

发布时间：2023-10-31

作者：Wenting Zhao, Ye Liu, Tong Niu, Yao Wan, Philip S. Yu, Shafiq Joty, Yingbo Zhou, Semih Yavuz

中文摘要：

大型语言模型（LLMs）展现了令人印象深刻的生成能力，但它们在仅依赖内部知识时，尤其是在回答需要较少常见信息的问题时，会出现幻觉。检索增强型LLMs已成为将LLMs基于外部知识的一个潜在解决方案。然而，最近的方法主要强调从非结构化文本语料库中进行检索，因为其与提示的无缝集成。当使用如知识图谱这样的结构化数据时，大多数方法将其简化为自然文本，忽略了其底层结构。此外，当前领域中一个显著的差距是缺乏一个现实基准来评估基于异构知识源（例如，知识库和文本）的LLMs固化的有效性。为了填补这一差距，我们精心制作了一个综合数据集，它提出了两个独特的挑战：（1）需要从开放域的结构化和非结构化知识源中检索信息的两跳多源问题；从结构化知识源中检索信息是正确回答问题的关键组成部分。（2）生成符号查询（例如，用于维基数据的SPARQL）是一个关键要求，这又增加了一层挑战。我们的数据集是通过结合通过预定义推理链自动生成和人工标注的方式创建的。我们还介绍了一种新颖的方法，该方法利用了多种检索工具，包括文本段落检索和符号语言辅助检索。我们的模型在性能上显著优于先前的方法，证明了其在解决上述推理挑战方面的有效性。

一句话总结：

本研究提出了一种基于多源知识检索的LLMs固化方法，通过构建综合数据集和利用多种检索工具，有效提升了LLMs在处理复杂推理任务时的性能。

GAR-meets-RAG Paradigm for Zero-Shot Information Retrieval

发布时间：2023-10-31

作者：Daman Arora, Anush Kini, Sayak Ray Chowdhury, Nagarajan Natarajan, Gaurav Sinha, Amit Sharma

中文摘要：

给定一个查询和文档语料库，信息检索（IR）任务是要输出一个相关文档的排序列表。结合大型语言模型（LLMs）和基于嵌入的检索模型，最近的研究在零样本检索问题上显示出有希望的结果，即没有从目标域获取标记数据的访问权限。两种流行的范式是生成增强检索（GAR）（为查询生成额外的上下文然后检索）和检索增强生成（RAG）（检索相关文档作为上下文然后生成答案）。这些范式的成功依赖于（i）高召回率的检索模型，在零样本设置中难以获得，以及（ii）高精度（再）排序模型，通常需要一个良好的初始化。在这项工作中，我们提出了一种新颖的GAR-meets-RAG递归公式，克服了现有范式的挑战。我们的方法在零样本设置中迭代地改进检索（通过GAR）和重写（通过RAG）阶段。一个关键的设计原则是重写-检索阶段提高了系统的召回率，而最终的再排序阶段提高了精度。我们在零样本段落检索基准BEIR和TREC-DL上进行了广泛的实验。我们的方法在BEIR基准上建立了新的最先进水平，在6个数据集上的Recall@100和nDCG@10指标上超过了之前的最优结果，相对于之前的最优结果提高了高达17%。

一句话总结：

本研究提出了一种结合生成增强检索和检索增强生成的递归公式，显著提高了零样本检索任务的性能。

Integrating Summarization and Retrieval for Enhanced Personalization via Large Language Models

发布时间：2023-10-30

作者：Chris Richardson, Yao Zhang, Kellen Gillespie, Sudipta Kar, Arshdeep Singh, Zeynab Raeesy, Omar Zia Khan, Abhinav Sethy

中文摘要：

个性化，即根据个人用户调整系统的能力，是自然语言处理（NLP）系统用户体验中的一个关键因素。随着大型语言模型（LLMs）的出现，一个关键问题是如何利用这些模型来更好地个性化用户体验。为了个性化语言模型的输出，一种直接的方法是将过去用户数据纳入语言模型提示中，但这种方法可能导致输入过长，超出输入长度限制，并引发延迟和成本问题。现有方法通过选择性提取相关用户数据（即选择性检索）来构建下游任务的提示，以应对这些挑战。然而，基于检索的方法受潜在信息损失、缺乏更深入的用户理解和冷启动挑战的限制。为了克服这些限制，我们提出了一种新颖的摘要增强方法，通过扩展检索增强个性化，结合由LLMs生成的任务感知用户摘要。这些摘要可以离线生成和存储，使得具有运行时约束的现实世界系统，如语音助手，能够利用LLMs的力量。实验表明，我们的方法在LaMP个性化基准测试中，在大多数任务上与检索增强相当或优于检索增强，且检索用户数据减少了75%。我们证明了通过LLMs离线摘要和运行时检索，可以在实际约束下对各种任务进行更好的个性化。

一句话总结：

本文提出了一种基于LLMs的摘要增强个性化方法，通过离线生成和存储用户摘要，有效减少了检索用户数据量，提高了自然语言处理系统的个性化性能。

Generative retrieval-augmented ontologic graph and multi-agent strategies for interpretive large language model-based materials design

发布时间：2023-10-30

作者：Markus J. Buehler

中文摘要：

本文探讨了大型语言模型（LLMs）在材料分析、设计和制造中的应用，特别是它们与人类语言、符号、代码和数值数据的交互能力。研究展示了LLMs作为支持工程材料分析的工具，可用于检索关键信息、发展研究假设、发现不同知识领域的机制关系，以及基于物理真实情况的编写和执行模拟代码以生成主动知识。当作为具有特定特征、能力和指令的AI代理集时，LLMs可以为分析和设计问题提供强大的问题解决策略。实验聚焦于使用基于材料力学领域训练数据微调的模型MechGPT。研究首先确认了微调如何赋予LLMs对领域知识的合理理解。然而，当查询超出学习材料范围时，LLMs可能难以回忆正确信息。研究展示了如何使用检索增强的本体知识图谱策略来解决这个问题，这些策略可以辨别模型理解哪些概念重要以及它们之间的关系。以将不同知识领域（如音乐和蛋白质）联系起来为例，这些策略还可以提供具有丰富节点、边和子图级别信息的可解释图结构。研究还讨论了非线性采样策略和基于代理的建模在复杂问答、代码生成和执行中的应用，这些应用涉及从主动学习的密度泛函理论（DFT）建模和数据分析中自动开发力场。

一句话总结：

本文研究了大型语言模型在材料科学中的应用，通过微调和检索增强策略，提高了LLMs在分析和设计问题中的问题解决能力。

CHAIN: Exploring Global-Local Spatio-Temporal Information for Improved Self-Supervised Video Hashing

发布时间：2023-10-29

作者：Rukai Wei, Yu Liu, Jingkuan Song, Heng Cui, Yanzhao Xie, Ke Zhou

中文摘要：

将视频压缩成二进制代码可以提高检索速度并减少存储开销。然而，由于视频帧之间的高局部冗余和复杂的全局依赖关系，尤其是在没有标签的情况下，学习准确的哈希代码以用于视频检索可能具有挑战性。现有的自监督视频哈希方法在设计表达性时间编码器方面已经非常有效，但由于学习任务不够具有挑战性和不可靠，它们尚未充分利用视频的时间动态和空间外观。为了解决这些挑战，我们首先利用对比学习任务来捕捉视频的全球时空信息以用于哈希。借助我们设计的增强策略，这些策略专注于空间和时间变化以创建正对，学习框架可以生成对运动、尺度和视点不变的哈希代码。此外，我们引入了两个协作学习任务，即帧顺序验证和场景变化正则化，以捕捉视频帧内的局部时空细节，从而增强对时间结构的感知和对时空关系的建模。我们提出的具有全局-局部时空信息的对比哈希（CHAIN）在四个视频基准数据集上优于最先进的自监督视频哈希方法。我们的代码将发布。

一句话总结：

提出了一种新的自监督视频哈希方法，通过对比学习和协作学习任务，实现了对视频时空信息的有效捕捉和哈希编码。

TCRA-LLM: Token Compression Retrieval Augmented Large Language Model for Inference Cost Reduction

发布时间：2023-10-24

作者：Junyi Liu, Liangzhi Li, Tong Xiang, Bowen Wang, Yiming Qian

中文摘要：

自ChatGPT发布其API供公众使用以来，基于商业大型语言模型（LLMs）的应用数量呈指数增长。这类模型的一种流行用法是利用其情境学习能力，通过检索增强获取的知识来生成针对用户查询的响应。部署商业检索增强LLMs的一个问题是由于额外检索的上下文而导致的成本，这大大增加了LLMs的输入令牌大小。为了减轻这一问题，我们提出了一种令牌压缩方案，包括两种方法：摘要压缩和语义压缩。第一种方法应用了一个基于T5的模型，该模型通过使用包含不同长度样本的自指令生成的数据集进行微调，通过摘要来减少令牌大小。第二种方法通过移除对语义影响较小的单词进一步压缩令牌大小。为了充分评估所提方法的有效性，我们提出并使用了一个名为Food-Recommendation DB（FRDB）的数据集，该数据集专注于孕期妇女或婴儿的食品推荐。我们的摘要压缩可以将检索令牌大小减少65%，同时将准确率提高0.3%；语义压缩提供了一种更灵活的方式来权衡令牌大小与性能，其中我们可以通过仅降低1.6%的准确率来减少20%的令牌大小。

一句话总结：

本研究提出了一种基于T5的令牌压缩方案，通过摘要压缩和语义压缩两种方法，有效降低了商业检索增强LLMs的输入令牌大小，同时保持了较高的准确率。

DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning

发布时间：2023-10-23

作者：Wei Chen, Qiushi Wang, Zefei Long, Xianyin Zhang, Zhongtian Lu, Bingxuan Li, Siyuan Wang, Jiarong Xu, Xiang Bai, Xuanjing Huang, Zhongyu Wei

中文摘要：

我们提出了一个名为DISC-FinLLM的金融大型语言模型（LLM）的多专家微调框架。我们的方法通过赋予通用LLM多轮问答能力、领域文本处理能力、数学计算技能以及检索增强的生成能力来改进它们。我们构建了一个名为DISC-FIN-SFT的金融指令微调数据集，包括四个类别的指令样本（咨询、NLP任务、计算和检索增强生成）。在多个基准上的评估表明，我们的模型在各种金融场景中的表现优于基线模型。更多资源可在https://github.com/FudanDISC/DISC-FinLLM找到。

一句话总结：

提出了一种名为DISC-FinLLM的金融大型语言模型，通过多专家微调框架增强了其金融领域的应用能力。

PRCA: Fitting Black-Box Large Language Models for Retrieval Question Answering via Pluggable Reward-Driven Contextual Adapter

发布时间：2023-10-23

作者：Haoyan Yang, Zhitao Li, Yong Zhang, Jianzong Wang, Ning Cheng, Ming Li, Jing Xiao

中文摘要：

检索问答（ReQA）任务采用检索增强框架，该框架由检索器和生成器组成。生成器根据检索器检索到的文档来制定答案。将大型语言模型（LLMs）作为生成器具有益处，因为它们具有先进的问答能力，但它们通常太大，无法在预算限制下进行微调，而其中一些只能通过API访问。为了解决这个问题并进一步提高ReQA的性能，我们提出了一种可训练的可插拔奖励驱动上下文适配器（PRCA），将生成器作为一个黑盒。PRCA以可插拔的方式位于检索器和生成器之间，通过在强化学习阶段最大化奖励，通过token自回归策略来优化检索到的信息。我们的实验验证了PRCA在三个数据集上提高ReQA性能的有效性，最高可达20%的提升，以适应黑盒LLMs融入现有框架，展示了其在LLMs时代的巨大潜力。

一句话总结：

提出了一种可训练的可插拔奖励驱动上下文适配器（PRCA），以优化检索问答（ReQA）性能，提高大型语言模型（LLMs）在问答任务中的适应性。

Diversify Question Generation with Retrieval-Augmented Style Transfer

发布时间：2023-10-23

作者：Qi Gou, Zehua Xia, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li, Nguyen Cam-Tu

中文摘要：

给定一段文本和一个答案，人类能够以各种表达方式提出问题，但这种能力对于大多数问题生成（QG）系统来说仍然是一个挑战。现有的解决方案主要关注给定文本内的内部知识或语义词空间以实现内容多样性规划。然而，这些方法尚未考虑外部知识在表达多样性方面的潜力。为了弥合这一差距，我们提出了RAST（检索增强风格迁移）框架，其目标是利用多样化模板的风格进行问题生成。为了训练RAST，我们开发了一种基于强化学习（RL）的新方法，该方法最大化了多样性奖励和一致性奖励的加权组合。在这里，一致性奖励由问答（QA）模型计算，而多样性奖励衡量最终输出模仿检索模板的程度。实验结果表明，我们的方法在多样性方面优于之前基于多样性的基线，在一致性评分方面具有可比性。我们的代码可在https://github.com/gouqi666/RAST找到。

一句话总结：

提出了一种名为RAST的检索增强风格迁移框架，通过结合外部知识和强化学习，有效提升了问题生成的多样性和一致性。

Chainpoll: A high efficacy method for LLM hallucination detection

发布时间：2023-10-22

作者：Robert Friel, Atindriyo Sanyal

中文摘要：

大型语言模型（LLMs）在生成连贯且与上下文相关联的响应方面取得了显著的进步。然而，幻觉（即错误或不合理的陈述）仍然普遍存在，这促使人们创建了自动指标来检测LLM输出中的这些幻觉。我们的贡献包括：引入了ChainPoll，这是一种创新的幻觉检测方法，其性能优于同类方法，并揭幕了RealHall，这是一个经过优化的基准数据集集合，用于评估最近研究中幻觉检测指标。在创建RealHall的过程中，我们评估了先前幻觉检测研究中使用的任务和数据集，并观察到许多任务并不适合目前使用的强大LLMs。为了克服这一点，我们选择了四个对现代LLMs具有挑战性且与实际场景相关的数据集。使用RealHall，我们对ChainPoll与最近研究中众多幻觉指标进行了全面比较。我们的发现表明，ChainPoll在所有RealHall基准测试中均表现优异，实现了0.781的整体AUROC。这比次优理论方法高出11%，并且超过行业标准超过23%。此外，ChainPoll在成本效益和透明度方面优于其他指标。我们引入了两个新的指标来评估LLM的幻觉：依从性和正确性。依从性与检索增强生成工作流程相关，评估LLM在给定文档和上下文中的分析能力。相比之下，正确性识别逻辑和推理错误。

一句话总结：

本研究提出了一种创新的幻觉检测方法ChainPoll，并通过RealHall数据集证明了其在评估LLM幻觉检测方面的优越性能。

Optimizing Retrieval-augmented Reader Models via Token Elimination

发布时间：2023-10-20

作者：Moshe Berchansky, Peter Izsak, Avi Caciularu, Ido Dagan, Moshe Wasserblat

中文摘要：

融合解码器（Fusion-in-Decoder，简称FiD）是一种有效的检索增强型语言模型，广泛应用于各种开放域任务，如问答、事实核查等。在FiD中，首先检索支持段落，然后使用生成模型（Reader）进行处理，这可能会在解码时间上造成显著的瓶颈，尤其是在输出较长的情况下。在本工作中，我们分析了所有检索到的段落对读者模型性能的贡献和必要性，并提出在标记级别消除一些可能不会对答案生成过程提供关键信息的检索信息。我们证明，我们的方法可以将运行时间减少高达62.2%，同时性能仅下降2%，在某些情况下甚至可以提升性能结果。

一句话总结：

本研究提出了一种优化FiD模型的方法，通过消除非关键信息，显著减少了运行时间并保持了性能。

Retrieval-Augmented Neural Response Generation Using Logical Reasoning and Relevance Scoring

发布时间：2023-10-20

作者：Nicholas Thomas Walker, Stefan Ultes, Pierre Lison

中文摘要：

构建面向任务的对话系统中的响应通常依赖于当前对话状态或外部数据库等信息来源。本文提出了一种新颖的知识基础响应生成方法，该方法结合了检索增强的语言模型与逻辑推理。该方法围绕一个表示当前对话状态和背景信息的知识图谱展开，分为三个步骤进行。首先，使用概率逻辑编程推断出逻辑上推导出的事实，以丰富知识图谱。然后，在每个回合中，使用神经网络模型对扩展图中每个节点和边的对话相关性进行评分。最后，将相关性评分最高的元素转换为自然语言形式，并将其集成到用于生成系统响应的神经网络对话模型的提示中。我们通过两个数据集（KVRET和GraphWOZ）以及人类评估来研究所提出方法的优势。实验结果表明，将（概率）逻辑推理与对话相关性评分相结合确实提高了响应的事实性和流畅性。

一句话总结：

本文提出了一种结合逻辑推理和对话相关性评分的知识基础响应生成方法，显著提升了面向任务对话系统响应的事实性和流畅性。

A Quality-based Syntactic Template Retriever for Syntactically-controlled Paraphrase Generation

发布时间：2023-10-20

作者：Xue Zhang, Songming Zhang, Yunlong Liang, Yufeng Chen, Jian Liu, Wenjuan Han, Jinan Xu

中文摘要：

现有的基于句法控制的释义生成（SPG）模型在利用人工标注或精心选择的句法模板时表现良好。然而，获取此类模板的难度实际上阻碍了SPG模型的实际应用。一方面，高昂的成本使得为每个源句手动设计合适的模板变得不可行。另一方面，当前启发式方法自动检索到的模板通常对SPG模型生成高质量的释义不可靠。为了摆脱这一困境，我们提出了一种基于质量的句法模板检索器（QSTR），它根据待生成释义的质量来检索模板。此外，对于需要为每个源句生成多个释义的情况，我们设计了一种多样模板搜索（DTS）算法，该算法可以在不牺牲质量的情况下增强释义之间的多样性。实验表明，QSTR在生成高质量释义方面可以显著超越现有的检索方法，甚至在无参考指标方面与人工标注的模板表现相当。此外，人工评估以及使用我们生成的释义进行数据增强的下游任务性能展示了我们的QSTR和DTS算法在实际场景中的潜力。

一句话总结：

本文提出了一种基于质量的句法模板检索器（QSTR）和多样模板搜索（DTS）算法，有效提升了释义生成模型的质量和多样性。

FABULA: Intelligence Report Generation Using Retrieval-Augmented Narrative Construction

发布时间：2023-10-20

作者：Priyanka Ranade, Anupam Joshi

中文摘要：

叙事构建是将不同的事件信息转化为逻辑情节结构的过程，这种结构模拟了一个从开始到结束的故事。情报分析是一个可以从叙事构建技术中受益极大的领域，尤其是在帮助分析师在主要依赖人工且成本高昂的事件信息综合成全面情报报告的过程中。人工生成情报报告往往容易遇到诸如整合动态事件信息、编写细粒度查询和填补信息空白等挑战。这促使开发一个系统能够检索并以有助于自动生成情报报告的形式表示事件的关键方面。我们引入了一种检索增强生成（RAG）方法，通过检索知识图中断言的结构化信息来增强自回归解码器的提示，以基于叙事情节模型生成目标信息。我们将该方法应用于神经情报报告生成问题，并引入了FABULA框架，用于通过RAG增强情报分析工作流程。分析师可以使用FABULA查询事件情节图（EPG）以检索相关的事件情节点，这些点可以用作在生成情报报告期间增强大型语言模型（LLM）的提示。我们的评估研究表明，生成的情报报告中所包含的情节点具有高度的语义相关性、高度的连贯性和低数据冗余。

一句话总结：

本研究提出了一种基于RAG的情报报告生成方法，通过检索和表示事件关键信息，有效提高了情报报告的生成质量和效率。

Knowledge-Augmented Language Model Verification

发布时间：2023-10-19

作者：Jinheon Baek, Soyeong Jeong, Minki Kang, Jong C. Park, Sung Ju Hwang

中文摘要：

近年来，语言模型（LMs）在生成包含参数内部知识文本方面展现出令人印象深刻的性能。然而，由于知识可能不准确、不完整和过时，LMs经常对给定查询生成事实错误的结果。为了解决这个问题，先前的研究提出通过从外部知识源检索知识来增强LMs。然而，由于以下两个原因，这种方法的文本生成性能往往不佳：1）模型可能无法检索与给定查询相关的知识，或2）模型可能无法在生成的文本中忠实反映检索到的知识。为了克服这些问题，我们提出使用一个单独的验证器来验证知识增强LMs的输出和知识，该验证器是一个小型LM，通过指令微调训练来检测这两种类型的错误。然后，当验证器识别出错误时，我们可以通过检索新知识或生成新文本来纠正它。此外，我们使用单个验证器对不同指令输出的集成来增强验证过程的可靠性。我们在多个问答基准测试中验证了所提出的验证步骤的有效性，结果表明，所提出的验证器有效地识别了检索和生成错误，使LMs能够提供更准确的事实性输出。我们的代码可在https://github.com/JinheonBaek/KALMV上找到。

一句话总结：

提出了一种通过外部知识源增强语言模型并使用单独验证器来确保输出准确性的方法，从而提高语言模型生成事实正确文本的能力。

ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks

发布时间：2023-10-19

作者：Xiaodong Yu, Hao Cheng, Xiaodong Liu, Dan Roth, Jianfeng Gao

中文摘要：

尽管通过检索增强在缓解大型语言模型（LLMs）中的幻觉方面取得了显著进展，但使用静态问答（QA）数据来衡量LLMs的可靠性仍然具有挑战性。特别是，考虑到数据污染的可能性（例如，导致记忆化），良好的静态基准性能并不能保证模型能够可靠地使用提供的证据进行回答，这对于避免在所需知识是新或私有时产生幻觉至关重要。受对抗性机器学习的启发，我们研究了自动扰动现有静态数据以进行动态评估的可行性。具体来说，本文提出了ReEval，这是一个基于LLM的框架，使用提示链来扰动原始证据，以生成新的测试案例，用于评估LLMs在利用新证据进行回答时的可靠性。我们使用ChatGPT实现了ReEval，并在各种提示设置下对两个流行的开放域QA数据集的变体在一系列LLMs上进行评估。我们生成的数据可读性强，可用于触发LLMs中的幻觉。观察到在静态数据上准确度高的模型会从扰动的证据中产生不支持性的答案，LLMs（包括GPT-4）的准确度出现显著下降。我们发现，我们的对抗性示例可以跨所有考虑的LLMs迁移。小型模型生成的示例可以用来评估一个更大的模型，这使得我们的方法具有成本效益。

一句话总结：

本文提出了一种基于LLM的框架ReEval，通过扰动证据生成新的测试案例，以评估LLMs在利用新证据回答问题时避免幻觉的可靠性。

Understanding Retrieval Augmentation for Long-Form Question Answering

发布时间：2023-10-18

作者：Hung-Ting Chen, Fangyuan Xu, Shane Arora, Eunsol Choi

中文摘要：

本文研究了检索增强语言模型（LMs）在长文本问答中的应用。我们分析了检索增强对不同语言模型的影响，通过比较使用相同证据文档生成的答案，以及不同质量的检索文档集如何影响同一语言模型生成的答案。我们研究了生成答案的各种属性（例如，流畅性、长度、变异性），并着重于将生成的长文本答案归因于上下文证据文档。我们收集了关于答案归因的人类标注，并评估了自动判断归因的方法。我们的研究提供了关于检索增强如何影响语言模型的长知识丰富文本生成的新见解。我们进一步确定了长文本生成的归因模式，并分析了归因错误的主要原因。我们的分析揭示了检索增强如何影响长知识丰富文本的生成，并为未来的研究提供了方向。

一句话总结：

本文探讨了检索增强对长文本问答中语言模型生成答案的影响，并分析了归因模式及错误原因。

InferDPT: Privacy-Preserving Inference for Black-box Large Language Model

发布时间：2023-10-18

作者：Meng Tong, Kejiang Chen, Jie Zhang, Yuang Qi, Weiming Zhang, Nenghai Yu, Tianwei Zhang, Zhikun Zhang

中文摘要：

大型语言模型（LLMs），如ChatGPT，极大地简化了文本生成任务。然而，它们也引发了关于隐私风险的关注，例如数据泄露和未经授权的数据收集。现有的隐私保护推理解决方案面临着与计算时间和通信成本相关的实际挑战。在本文中，我们提出了InferDPT，这是第一个用于隐私保护推理的黑色盒LLMs的实际框架，实现了文本生成中的差分隐私。InferDPT包含两个关键模块：“扰动模块”利用指数机制生成扰动提示，以促进与黑色盒LLMs的隐私保护推理，而“提取模块”则受到知识蒸馏和检索增强生成的启发，从扰动的生成结果中提取连贯且一致的文字，确保文本生成任务的顺利完成。为了解决与先前指数机制易受嵌入修订攻击的敏感性相关的隐私问题，我们在InferDPT的扰动模块中引入了RANTEXT，这是一种新型的差分隐私机制，它引入了“随机邻接”的概念，用于提示中的文本扰动。在三个数据集上的实验结果表明，InferDPT的文本生成质量与非隐私的GPT-4相当，而RANTEXT在隐私和效用之间的权衡上超过了现有的最先进机制，即SANTEXT+和CUSTEXT+。即使隐私参数epsilon值为6.0，RANTEXT在嵌入修订攻击中的平均隐私保护率也超过了90%，这比SANTEXT+高0.58倍，比CUSTEXT+高3.35倍。

一句话总结：

本文提出了一种名为InferDPT的框架，通过结合差分隐私技术和改进的扰动机制，实现了对大型语言模型隐私保护推理的高效和高质量文本生成。

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

发布时间：2023-10-17

作者：Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi

中文摘要：

尽管大型语言模型（LLMs）具有显著的能力，但由于它们仅依赖于封装的参数化知识，因此常常产生包含事实错误的结果。检索增强生成（RAG）作为一种临时方法，通过检索相关知识来增强LLMs，可以减少这些问题。然而，无论检索是否必要，还是检索到的段落是否相关，不加区分地检索和整合固定数量的检索段落，都会降低LLMs的灵活性，或者可能导致不实用的响应生成。我们引入了一个名为自我反思检索增强生成（Self-RAG）的新框架，通过检索和自我反思来提高LLMs的质量和事实性。我们的框架训练了一个任意的单个LLMs，该模型能够根据需要自适应地检索段落，并使用称为反思标记的特殊标记生成和反思检索到的段落及其自身的生成。生成反思标记使得LLMs在推理阶段具有可控性，使其能够根据不同的任务需求调整其行为。实验表明，Self-RAG（7B和13B参数）在一系列任务上显著优于最先进的LLMs和检索增强模型。具体来说，Self-RAG在开放域问答、推理和事实验证任务上优于ChatGPT和检索增强的Llama2-chat，并且相对于这些模型，它在提高长篇生成的真实性和引用准确性方面显示出显著的提升。

一句话总结：

Self-RAG通过引入反思标记，提高了LLMs在检索和生成过程中的灵活性和准确性，显著优于现有模型。

Heterogenous Memory Augmented Neural Networks

发布时间：2023-10-17

作者：Zihan Qiu, Zhen Liu, Shuicheng Yan, Shanghang Zhang, Jie Fu

中文摘要：

研究表明，半参数方法（将标准神经网络与非参数组件如外部记忆模块和数据检索相结合）在数据稀缺和分布外（OOD）场景中特别有帮助。然而，现有的半参数方法大多依赖于独立的原始数据点——这种策略由于计算成本高以及当前注意力机制在大规模标记上的不足，难以扩展。在本文中，我们介绍了一种新颖的异构记忆增强方法，该方法通过引入具有注意力机制的可学习记忆标记，可以有效地提升性能而不会产生巨大的计算开销。我们的通用方法可以无缝地以即插即用方式与各种骨干网络（MLP、CNN、GNN和Transformer）结合。我们在分布内（ID）和分布外条件下，对各种基于图像和图的任务进行了广泛评估，并展示了其与特定任务最先进方法的竞争力。代码可在\url{https://github.com/qiuzh20/HMA}获取。

一句话总结：

本文提出了一种基于异构记忆增强的神经网络方法，通过引入可学习记忆标记和注意力机制，在数据稀缺和分布外场景下显著提升了模型性能。

Towards reducing hallucination in extracting information from financial reports using Large Language Models

发布时间：2023-10-16

作者：Bhaskarjit Sarmah, Tianjie Zhu, Dhagash Mehta, Stefano Pasquali

中文摘要：

对于金融分析师而言，公司财务报告中的问答（Q&A）部分是进行各种分析和投资决策的关键信息来源。然而，从问答部分提取有价值的见解一直面临重大挑战，因为传统的详细阅读和笔记记录方法缺乏可扩展性且易受人为错误的影响，而光学字符识别（OCR）和类似技术则在准确处理非结构化转录文本方面遇到困难，常常遗漏那些驱动投资者决策的细微语言差异。在此，我们展示了利用大型语言模型（LLMs）高效快速地从收益报告转录中提取信息的方法，同时确保高准确度，通过结合检索增强生成技术和元数据来改进提取过程并减少幻觉。我们根据评估问答系统的各种客观指标，评估了使用和不使用我们提出的方法的各种LLMs的结果，并实证证明了我们方法的优势。

一句话总结：

本研究利用大型语言模型（LLMs）从公司财务报告的问答部分中高效准确地提取信息，显著提升了信息提取的效率和准确性。

In-context Pretraining: Language Modeling Beyond Document Boundaries

发布时间：2023-10-16

作者：Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Gergely Szilvasy, Rich James, Xi Victoria Lin, Noah A. Smith, Luke Zettlemoyer, Scott Yih, Mike Lewis

中文摘要：

大型语言模型（LMs）目前被训练来根据文档前缀预测标记，这使得它们可以直接执行长文本生成和提示式任务，这些任务可以归结为文档补全。现有的预训练管道通过连接随机集合的短文档来创建输入上下文，但先前的文档没有为预测下一个文档提供任何信号。我们提出了情境预训练（In-Context Pretraining），这是一种新的方法，其中语言模型在一系列相关文档上进行预训练，从而明确鼓励它们跨文档边界阅读和推理。我们可以通过简单地改变文档顺序来实现情境预训练，使得每个上下文都包含相关文档，并直接应用现有的预训练管道。然而，这个文档排序问题具有挑战性。有数十亿份文档，我们希望排序能够最大化每份文档的上下文相似性，同时不重复任何数据。为此，我们引入了近似算法，通过高效的最近邻搜索来寻找相关文档，并使用图遍历算法构建连贯的输入上下文。我们的实验表明，情境预训练提供了一种简单且可扩展的方法，可以显著提高语言模型（LMs）的性能：我们在需要更复杂上下文推理的任务中看到了显著的改进，包括情境学习（+8%）、阅读理解（+15%）、对先前上下文的忠实度（+16%）、长上下文推理（+5%）和检索增强（+9%）。

一句话总结：

情境预训练通过在相关文档序列上预训练语言模型，显著提升了语言模型在复杂上下文推理任务上的性能。

RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling

发布时间：2023-10-16

作者：Jingcheng Deng, Liang Pang, Huawei Shen, Xueqi Cheng

中文摘要：

检索增强语言模型在解决语言模型（LMs）中存在的信息过时和幻觉问题方面展现出潜力。然而，当前研究面临两个主要问题：1）确定要检索的信息，2）在生成过程中有效地结合检索到的信息。我们认为，有价值的检索信息不仅应与当前源文本相关，还应考虑到未来目标文本，因为语言模型（LMs）建模的是未来的标记。此外，我们提出，使用来自紧凑潜在空间的潜在变量进行聚合比利用受限于上下文长度且易受噪声影响的显式原始文本更有效。因此，我们引入了RegaVAE，这是一个基于变分自动编码器（VAE）的检索增强语言模型。它将文本语料库编码到潜在空间中，从源文本和目标文本中捕捉当前和未来的信息。此外，我们利用VAE初始化潜在空间，并通过将高斯先验分布扩展为高斯混合分布来采用检索生成范式的概率形式。理论分析为RegaVAE提供了一个可优化的上界。在各个数据集上的实验结果表明，文本生成质量和幻觉去除方面均有显著改进。

一句话总结：

RegaVAE通过结合源文本和目标文本的潜在信息，有效提升了检索增强语言模型的文本生成质量和幻觉去除能力。

MechGPT, a language-based strategy for mechanics and materials modeling that connects knowledge across scales, disciplines and modalities

发布时间：2023-10-16

作者：Markus J. Buehler

中文摘要：

几百年以来，研究人员一直在寻求将不同知识领域连接起来的方法。虽然早期的学者（如伽利略、达·芬奇等）在多个领域都是专家，但后来的研究趋向于专业化。随着人工智能的出现，我们现在可以探索不同领域（例如，力学-生物学）或不同领域（例如，失效力学-艺术）之间的关系。为了实现这一点，我们使用了一个经过微调的大型语言模型（LLM），这里用于多尺度材料失效知识的一个子集。该方法包括使用通用LLM从原始来源中提炼问答对，然后进行LLM微调。得到的MechGPT LLM基础模型在一系列计算实验中被用于探索其在知识检索、各种语言任务、假设生成以及连接不同领域知识方面的能力。虽然该模型具有一定的从训练数据中回忆知识的能力，但我们发现LLM特别有用，可以通过本体知识图谱提取结构性的洞察。这些可解释的图结构提供了解释性的见解、新研究问题的框架，以及可用于检索增强生成的知识可视化表示。讨论了MechGPT的三个版本，其参数量从130亿到700亿不等，上下文长度超过10000个标记。这为复杂的检索增强策略提供了充足的能力，以及基于代理的建模，其中多个LLM以协作和/或对抗的方式互动，整合来自文献或网络搜索的新数据，以及多模态。

一句话总结：

本文提出了一种基于大型语言模型的MechGPT，用于探索不同领域知识之间的关系，并通过本体知识图谱提取结构性的洞察。

Chameleon: a heterogeneous and disaggregated accelerator system for retrieval-augmented language models

发布时间：2023-10-15

作者：Wenqi Jiang, Marco Zeller, Roger Waleffe, Torsten Hoefler, Gustavo Alonso

中文摘要：

本文提出了一种检索增强语言模型（RALM），通过从外部数据库中检索特定上下文的知识来增强生成语言模型。这种策略即使在较小的模型上也能实现令人印象深刻的文本生成质量，从而大幅降低计算需求。然而，由于（a）语言模型推理和检索之间的不同工作负载特征以及（b）不同RALM配置（如模型大小、数据库大小和检索频率）的系统要求和瓶颈，RALM引入了独特的系统设计挑战。我们提出了Chameleon，一个异构加速器系统，它在一个解耦的架构中集成了语言模型和检索加速器。异构性确保了语言模型推理和检索的高效加速，而加速器解耦使得系统能够独立扩展这两种类型的加速器以满足不同的RALM需求。我们的Chameleon原型在FPGA上实现了检索加速器，并将语言模型推理分配给GPU，由CPU服务器通过网络协调这些加速器。与基于CPU和CPU-GPU向量搜索系统相比，Chameleon实现了高达23.72倍的速度提升和26.2倍的能效。在多种RALM上评估，Chameleon与混合CPU-GPU架构相比，在延迟上减少了高达2.16倍，在吞吐量上提高了3.18倍。这些有希望的结果为将加速器异构性和解耦引入未来的RALM系统铺平了道路。

一句话总结：

本文提出的Chameleon系统通过异构加速和资源解耦，显著提升了检索增强语言模型（RALM）的性能和效率。

CarExpert: Leveraging Large Language Models for In-Car Conversational Question Answering

发布时间：2023-10-14

作者：Md Rashad Al Hasan Rony, Christian Suess, Sinchana Ramakanth Bhat, Viju Sudhi, Julia Schneider, Maximilian Vogel, Roman Teucher, Ken E. Friedl, Soumya Sahoo

中文摘要：

大型语言模型（LLMs）在无需针对特定任务和数据微调的情况下，通过遵循自然语言指令展现了卓越的性能。然而，利用LLMs进行特定领域的问答存在严重限制。由于使用现成模型时的数据收集时间、复杂的用户表述和错误的检索（在检索增强生成中），生成的答案往往会出现幻觉。此外，由于缺乏对领域和预期输出的认识，此类LLMs可能会生成不符合目标领域的意外和不安全的答案。在本文中，我们提出了CarExpert，一个车内检索增强对话问答系统，该系统利用LLMs执行不同任务。具体来说，CarExpert使用LLMs来控制输入，为提取和生成回答组件提供特定领域的文档，并控制输出以确保生成安全且符合特定领域的答案。全面的实证评估表明，CarExpert在生成自然、安全和特定于汽车的答案方面优于最先进的LLMs。

一句话总结：

CarExpert通过利用LLMs控制输入和输出，为车内问答系统提供了一种生成自然、安全和特定于汽车领域答案的方法。

Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model

发布时间：2023-10-13

作者：Qichen Ye, Junling Liu, Dading Chong, Peilin Zhou, Yining Hua, Fenglin Liu, Meng Cao, Ziming Wang, Xuxin Cheng, Zhu Lei, Zhenhua Guo

中文摘要：

将大型语言模型（LLMs）整合到医疗保健领域具有巨大潜力，但也面临着挑战。从头开始为医学等特定领域预训练LLMs需要大量资源，往往不切实际。另一方面，仅依赖监督微调（SFT）可能导致过度自信的预测，并且可能无法充分利用特定领域的见解。为此，我们提出了一种多阶段训练方法，结合了领域特定持续预训练（DCPT）、SFT和直接偏好优化（DPO）。此外，我们发布了一个3Gb的中药（ChiMed）数据集，包括医学问答、纯文本、知识图谱和对话，分为三个训练阶段。使用我们的流程训练的医疗LLM，Qilin-Med，在性能上有了显著提升。在CPT和SFT阶段，Qilin-Med在CMExam测试集上分别达到了38.4%和40.0%的准确率。它比基模型Baichuan-7B（准确率：33.5%）高出7.5%。在DPO阶段，它在华佗-26M测试集上获得了16.66的BLEU-1和27.44的ROUGE-1分数，进一步提升了SFT阶段的性能（BLEU-1为12.69，ROUGE-1为24.21）。此外，我们通过检索增强生成（RAG）方法进一步提升了模型性能。实验表明，Qilin-Med-RAG在CMExam上达到了42.8%的准确率。这些结果突出了我们新颖的训练方法在构建医疗应用LLMs方面的贡献。

一句话总结：

本研究提出了一种结合领域特定持续预训练、监督微调和直接偏好优化的多阶段训练方法，显著提升了医疗LLM的性能，为医疗应用构建LLMs提供了新的思路。

GenTKG: Generative Forecasting on Temporal Knowledge Graph with Large Language Models

发布时间：2023-10-11

作者：Ruotong Liao, Xu Jia, Yangzhe Li, Yunpu Ma, Volker Tresp

中文摘要：

随着大型语言模型（LLMs）的快速发展，对时间知识图谱（tKG）领域的兴趣日益浓厚，该领域主要由基于嵌入和基于规则的常规方法主导。然而，关于预训练的LLMs是否能够理解结构化的时间关系数据，并取代它们作为时间关系预测的基础模型，这一问题仍然悬而未决。因此，我们将时间知识预测引入到生成性设置中。然而，在复杂的时序图数据结构与LLMs能够处理的序列自然表达之间，以及在tKGs的巨大数据规模和微调LLMs的重计算成本之间，存在巨大的鸿沟。为了解决这些挑战，我们提出了一种名为GenTKG的新型检索增强生成框架，该框架结合了基于时间逻辑规则的检索策略和少量样本参数高效的指令微调，分别解决上述挑战。大量实验表明，GenTKG在仅使用极少的训练数据（如16个样本）和低计算资源的情况下，优于传统的时序关系预测方法。GenTKG还展示了显著的跨领域泛化能力，在无需重新训练的情况下，在未见数据集上表现出色，并在同一数据集内无论时间分割如何，都表现出领域泛化能力。我们的工作揭示了LLMs在tKG领域的巨大潜力，并为tKG上的生成性预测开辟了新的前沿。代码和数据已在此发布：https://github.com/mayhugotong/GenTKG。

一句话总结：

GenTKG通过结合时间逻辑规则检索和少量样本参数高效的指令微调，实现了在时间知识图谱领域内高效且泛化的时间关系预测。

InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining

发布时间：2023-10-11

作者：Boxin Wang, Wei Ping, Lawrence McAfee, Peng Xu, Bo Li, Mohammad Shoeybi, Bryan Catanzaro

中文摘要：

通过利用外部数据库进行预训练，使用检索增强的自回归大型语言模型（LLMs）在困惑度和事实准确性方面表现出更好的性能。然而，现有的预训练检索增强LLMs的规模仍然有限（例如，Retro有75亿参数），这限制了指令微调和零样本泛化的有效性。在这项工作中，我们引入了Retro 48B，这是迄今为止最大的使用检索进行预训练的LLM。具体来说，我们继续使用Retro增强方法，通过从1200亿个token中检索，在额外的1000亿个token上对43B的GPT模型进行预训练。值得注意的是，获得的基座模型Retro 48B，在困惑度方面显著优于在1.2T token上训练的对应GPT 43B，而仅额外使用了2.58%的GPU小时，这证明了该方法具有显著的扩展潜力。在Retro上进行指令微调后，InstructRetro在广泛的零样本任务上显示出相对于指令微调的GPT的显著改进。具体来说，InstructRetro在8个短形式问答和阅读理解任务上的平均改进为7%，在4个具有挑战性的长形式问答任务上为10%，在3个摘要任务上为16%。令人惊讶的是，我们发现可以从InstructRetro架构中移除编码器，并直接使用其解码器骨干，同时实现可比的结果。我们的结果表明，在指令微调之前，通过继续使用检索进行预训练，可以获得更好的GPT解码器。我们的代码和检查点可在以下网址公开获取：https://huggingface.co/nvidia/retro-48b-instruct-4k。

一句话总结：

通过使用检索增强的预训练方法，我们成功构建了更大的LLM模型Retro 48B，显著提升了指令微调和零样本泛化的性能。

Qlarify: Recursively Expandable Abstracts for Directed Information Retrieval over Scientific Papers

发布时间：2023-10-11

作者：Raymond Fok, Joseph Chee Chang, Tal August, Amy X. Zhang, Daniel S. Weld

中文摘要：

在浩如烟海的科研文献中，读者通常首先浏览论文的摘要。然而，当读者寻求摘要中未提供的信息时，他们在深入全文的过程中会面临高昂的认知鸿沟。为了弥合这一差距，我们引入了递归可扩展的摘要，这是一种新颖的交互范式，通过逐步整合论文全文中的额外信息来动态扩展摘要。这种轻量级的交互允许学者通过快速浏览摘要或选择AI建议的可扩展实体来指定他们的信息需求。相关信息通过检索增强生成方法进行综合，并以流畅的、分线程的摘要扩展形式呈现，并通过引用论文中的相关源段落进行高效验证。通过一系列用户研究，我们展示了递归可扩展摘要的实用性，并确定了通过LLM（大型语言模型）驱动的交互支持低努力和即时探索长篇信息环境未来的机会。

一句话总结：

递归可扩展摘要通过动态整合全文信息，帮助学者高效地获取和验证所需信息，从而提升科研文献阅读的效率。

Retrieve Anything To Augment Large Language Models

发布时间：2023-10-11

作者：Peitian Zhang, Shitao Xiao, Zheng Liu, Zhicheng Dou, Jian-Yun Nie

中文摘要：

大型语言模型（LLMs）面临着知识、记忆、对齐和行动内在局限带来的重大挑战。这些问题不能仅靠LLMs自身解决，而应依赖外部世界的帮助，如知识库、记忆存储、演示示例和工具。检索增强是连接LLMs与外部辅助的关键机制。然而，传统方法遇到了两个紧迫问题。一方面，通用检索器没有针对LLMs的检索增强进行适当优化。另一方面，特定任务的检索器缺乏所需的灵活性，阻碍了它们在多样化的检索增强场景中的表现。在本研究中，我们提出了一种新颖的方法，即LLM-Embedder，它通过一个统一的嵌入模型全面支持LLMs多样化的检索增强需求。训练这样一个统一模型并非易事，因为各种检索任务旨在捕捉不同的语义关系，通常会受到相互干扰。为了应对这一挑战，我们系统地优化了我们的训练方法。这包括基于LLMs反馈的奖励公式、知识蒸馏的稳定化、带有明确指令的多任务微调和同批次负采样。这些优化策略有助于LLM-Embedder卓越的实证性能。值得注意的是，它在LLMs的检索增强方面取得了显著提升，在各种评估场景中超越了通用和特定任务的检索器。我们的检查点和源代码可在https://github.com/FlagOpen/FlagEmbedding上公开获取。

一句话总结：

LLM-Embedder通过统一的嵌入模型和系统优化的训练方法，显著提升了大型语言模型的检索增强性能。

The Solution for the CVPR2023 NICE Image Captioning Challenge

发布时间：2023-10-10

作者：Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo, Jianfeng Lu

中文摘要：

本文提出了针对零样本图像描述挑战的新解决方案。与传统的图像描述数据集不同，该挑战包含来自多个领域（如COVID-19）的更多样化的视觉概念以及各种图像类型（照片、插图、图形）。在数据层面，我们从Laion-5B（一个大规模的CLIP过滤图像-文本数据集）收集外部训练数据。在模型层面，我们使用基于手工制作的模板的大规模视觉-语言预训练模型OFA来执行图像描述任务。此外，我们引入了对比学习，以在预训练阶段对齐图像-文本对，学习新的视觉概念。然后，我们提出了一种相似性桶策略，并将此策略融入模板中，迫使模型生成更高质量和更匹配的描述。最后，通过检索增强策略，我们构建了一个内容丰富的模板，包含来自其他图像-文本对的最相关的前k个描述，以指导模型生成语义丰富的描述。我们的方法在排行榜上排名第一，分别在验证和测试阶段实现了105.17和325.72的Cider-Score。

一句话总结：

本文提出了一种基于大规模预训练模型和对比学习的零样本图像描述方法，通过相似性桶策略和检索增强策略显著提升了描述质量，并在挑战中取得优异成绩。

GPT-4 as an Agronomist Assistant? Answering Agriculture Exams Using Large Language Models

发布时间：2023-10-10

作者：Bruno Silva, Leonardo Nunes, Roberto Estevão, Vijay Aski, Ranveer Chandra

中文摘要：

大型语言模型（LLMs）在自然语言理解方面展现出惊人的能力，涵盖多个领域，包括医疗保健和金融。对于某些任务，LLMs的表现与训练有素的普通人相似甚至更优，因此使用人类考试（例如，认证考试）来评估LLMs的性能是合理的。我们全面评估了流行的LLMs，如Llama 2和GPT，在回答与农业相关的问题方面的能力。在我们的评估中，我们还采用了RAG（检索增强生成）和ER（集成细化）技术，这些技术结合了信息检索、生成能力和提示策略，以提高LLMs的性能。为了展示LLMs的能力，我们选择了来自三个最大的农业生产国——巴西、印度和美国的农业考试和基准数据集。我们的分析突出了GPT-4在考试中取得及格分数以获得农学家认证更新学分的能力，正确回答了93%的问题，并优于早期通用模型，后者达到了88%的准确率。在我们的一个实验中，与人类受试者相比，GPT-4获得了最高的性能。这表明GPT-4有可能通过主要研究生教育入学考试，甚至为更新农业证书获得学分。我们还探讨了模型解决一般农业相关问题和为巴西和印度农民生成作物管理指南的能力，利用了巴西农业局（Embrapa）的稳健数据集和来自印度的研究生项目考试。结果表明，GPT-4、ER和RAG可以显著贡献于农业教育、评估和作物管理实践，为农民和农业专业人士提供宝贵的见解。

一句话总结：

本研究评估了大型语言模型在农业领域的应用潜力，发现GPT-4等模型在农业考试和作物管理指南生成方面表现出色，为农业教育和实践提供了新的可能性。

RAUCG: Retrieval-Augmented Unsupervised Counter Narrative Generation for Hate Speech

发布时间：2023-10-09

作者：Shuyu Jiang, Wenyi Tang, Xingshu Chen, Rui Tanga, Haizhou Wang, Wenxian Wang

中文摘要：

反叙事（Counter Narrative，简称CN）是一种有前景的方法，可以在不侵犯言论自由的前提下对抗网络仇恨言论（Hate Speech，简称HS）。近年来，人们越来越关注使用自然语言生成技术自动生成反叙事。然而，当前的自动反叙事生成方法主要依赖于专家编写的训练数据集，这些数据集的获取既耗时又费力。此外，这些方法无法直接从外部统计数据、事实或例子中获得和扩展反知识。为了解决这些局限性，我们提出了检索增强的无监督反叙事生成（Retrieval-Augmented Unsupervised Counter Narrative Generation，简称RAUCG），以在无监督范式下自动扩展外部反知识并将其映射到反叙事中。具体来说，我们首先引入了一种基于立场一致性、语义重叠率和适合HS的适应性检索方法来检索反知识。然后，我们设计了一种基于能量的解码机制，通过量化知识注入、对抗和流畅性约束为不同的可微分函数，使模型能够在没有专家编写的反叙事数据的情况下建立从反知识到反叙事的映射。最后，我们从语言质量、毒性、说服力、相关性以及对抗HS的成功率等方面全面评估了模型性能。实验结果表明，RAUCG在所有指标上都优于强大的基线，并显示出更强的泛化能力，在相关性和对抗成功率的指标上分别实现了+2.0%和+4.5%的显著提升。此外，RAUCG使GPT2在所有指标上都优于T0，尽管后者的规模大约是前者的八倍。（Warning: This paper may contain offensive or upsetting content!）

一句话总结：

该研究提出了一种基于检索增强的无监督反叙事生成方法，有效提升了对抗网络仇恨言论的效果，同时增强了模型的泛化能力。

Glitter or Gold? Deriving Structured Insights from Sustainability Reports via Large Language Models

发布时间：2023-10-09

作者：Marco Bronzini, Carlo Nicolini, Bruno Lepri, Andrea Passerini, Jacopo Staiano

中文摘要：

在过去十年中，鉴于投资者对环境、社会和治理（ESG）问题的关注度不断提高，多个监管机构开始要求上市公司披露非财务信息。公开的可持续发展实践信息通常以多样化、非结构化和多模态的文档形式披露。这给高效收集和整合数据以形成与公司社会责任（CSR）相关的见解带来了挑战。因此，使用信息提取（IE）方法成为向利益相关者提供有洞察力和可操作数据的直观选择。在本研究中，我们采用大型语言模型（LLMs）、上下文学习和检索增强生成（RAG）范式，从公司的可持续发展报告中提取与ESG方面相关的结构化见解。然后，我们利用基于图的表示方法对提取的见解进行统计分析。这些分析揭示了ESG标准涵盖了超过500个广泛的主题，通常超出了现有分类的考虑范围，并且公司通过各种倡议来解决这些问题。此外，来自同一地区或行业的公司之间出现了披露相似性，验证了ESG文献中持续存在的假设。最后，通过将额外的公司属性纳入我们的分析，我们研究了哪些因素对公司ESG评级影响最大，结果表明ESG披露对获得的评级的影响大于其他财务或公司数据。

一句话总结：

本研究通过信息提取和统计分析，揭示了ESG披露对上市公司评级的影响，并验证了ESG标准涵盖的广泛主题和公司间的披露相似性。

Wait-free Trees with Asymptotically-Efficient Range Queries

发布时间：2023-10-08

作者：Ilya Kokorin, Dan Alistarh, Vitaly Aksenov

中文摘要：

本文探讨了在计算机科学中，如红黑树、四叉树、堆树或字典树等树形数据结构的基本工具。并发中的经典问题是如何获得表达丰富、高效且可扩展的实际树形数据结构版本。我们关注支持范围查询的并发树，即涉及多个连续数据项的查询。现有具有此功能的实现可以列出特定范围内的键，但不支持聚合范围查询：例如，如果我们想计算范围内的键的数量，唯一的选择是检索整个列表并返回其大小。这是次优的：在顺序设置中，可以通过计数器增强平衡搜索树，从而以对数时间而不是线性时间执行这些聚合请求。在本文中，我们提出了一种通用的方法，以无等待、渐近有效和实际可扩展的方式在并发树上实现广泛类别的范围查询。关键思想是在树节点上并发维护元数据的新机制，这可以看作是手递手锁定（我们称之为手递手帮助）的无等待变体。我们实现、测试和基准测试了一个具有无等待插入、删除、包含和计数操作的平衡二叉搜索树，返回给定范围内的键的数量，这验证了我们的方法在实践中预期的加速效果。

一句话总结：

本文提出了一种在并发树上实现高效范围查询的新方法，通过在树节点上并发维护元数据，实现了无等待、渐近有效和实际可扩展的性能。

LLM4VV: Developing LLM-Driven Testsuite for Compiler Validation

发布时间：2023-10-08

作者：Christian Munley, Aaron Jarmusch, Sunita Chandrasekaran

中文摘要：

大型语言模型（LLMs）是涉及自然语言广泛应用的全新且强大的工具，并展现出令人印象深刻的代码生成能力。本研究的目标是自动生成测试，并使用这些测试来验证和确认基于指令的并行编程范式OpenACC的编译器实现。为此，本文探讨了最先进的LLMs的能力，包括开源LLMs——Meta Codellama、Phind微调版本的Codellama、Deepseek Deepseek Coder和闭源LLMs——OpenAI GPT-3.5-Turbo和GPT-4-Turbo。我们进一步使用自己的测试套件数据集和OpenACC规范对开源LLMs和GPT-3.5-Turbo进行了微调。我们还探索了这些LLMs，使用包括代码模板、带有检索增强生成（RAG）的模板、一次性示例、带有RAG的一次性示例、带有代码模板和RAG的表达式提示等各种提示工程技术。本文强调了通过上述所有方法生成的超过5000个测试的结果。我们的贡献包括：（a）探索了最新和相关的LLMs在代码生成方面的能力，（b）研究了微调和提示方法，（c）分析了LLMs生成的测试结果，包括对代表性测试集的手动分析。我们发现，LLM Deepseek-Coder-33b-Instruct生成的通过测试最多，其次是GPT-4-Turbo。

一句话总结：

本研究通过探索大型语言模型在代码生成方面的能力，验证了OpenACC编译器实现，并发现Deepseek-Coder-33b-Instruct和GPT-4-Turbo在生成通过测试方面表现最佳。

Keyword Augmented Retrieval: Novel framework for Information Retrieval integrated with speech interface

发布时间：2023-10-06

作者：Anupam Purwar, Rahul Sundar

中文摘要：

从结构化和非结构化数据的组合中，以快速和低成本的方式检索答案，同时避免幻觉，这是使用语言模型的一个主要挑战。这阻碍了语言模型在知识检索自动化中的应用。当想要在基于文本的知识检索系统之上集成语音界面时，这一问题更为突出。此外，对于商业搜索和聊天机器人应用，完全依赖如GPT 3.5等商业大型语言模型（LLMs）可能会非常昂贵。在本研究中，作者首先开发了一个基于关键词的搜索框架，该框架增强了从待提供的文档中提取上下文的过程，以供LLM使用。这些关键词由一个相对较小的LLM生成，并缓存起来以与针对查询生成的相同较小LLM的关键词进行比较。这显著减少了在文档中查找上下文的时间和成本。一旦设置了上下文，一个更大的LLM就使用它来根据定制的Q&A提示提供答案。这项研究工作表明，使用关键词进行上下文识别可以减少信息检索的整体推理时间和成本。鉴于关键词增强检索框架带来的推理时间和成本降低，集成了基于语音的用户输入和响应读出界面。这允许与语言模型进行无缝交互。

一句话总结：

本研究通过使用基于关键词的搜索框架，显著降低了使用语言模型进行知识检索的推理时间和成本，并实现了与语言模型的语音交互。

Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models

发布时间：2023-10-06

作者：Boyu Zhang, Hongyang Yang, Tianyu Zhou, Ali Babar, Xiao-Yang Liu

中文摘要：

金融情绪分析对于估值和投资决策至关重要。然而，传统的自然语言处理（NLP）模型由于参数规模和训练数据集的范围有限，其泛化能力和在此领域的有效性受到限制。最近，在大规模语料库上预训练的大型语言模型（LLMs）在各种NLP任务中表现出卓越的性能，这得益于它们令人称赞的无需额外训练即可使用的能力。然而，直接将LLMs应用于金融情绪分析面临着挑战：LLMs的预训练目标与预测情绪标签之间的差异可能会损害其预测性能。此外，金融新闻的简洁性，往往缺乏足够的上下文，可能会显著降低LLMs情绪分析的可靠性。为了解决这些挑战，我们提出了一种用于金融情绪分析的检索增强LLMs框架。该框架包括一个指令调整的LLMs模块，确保LLMs作为情绪标签的预测者，以及一个检索增强模块，从可靠的外部来源检索额外的上下文。与传统的模型以及ChatGPT和LLaMA等LLMs相比，我们的方法在准确率和F1分数上实现了15%到48%的性能提升。

一句话总结：

本研究提出了一种检索增强的大型语言模型框架，显著提升了金融情绪分析的准确率和F1分数。

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

发布时间：2023-10-05

作者：Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong

中文摘要：

大多数大型语言模型（LLMs）一旦训练完成就不再更新，因此它们缺乏动态适应我们不断变化的世界的能力。在这项工作中，我们对LLMs在回答测试当前世界知识的问答中的事实性进行了详细研究。具体来说，我们引入了FreshQA，这是一个新颖的动态问答基准，涵盖了各种问题和答案类型，包括需要快速变化的世界知识的问题以及需要驳斥的错误前提问题。我们在两种模式的评估程序下对一系列封闭和开源的LLMs进行了基准测试，该程序允许我们衡量正确性和幻觉。通过涉及超过50,000次判断的人类评估，我们揭示了这些模型的局限性，并证明了有显著的改进空间：例如，所有模型（无论模型大小）在涉及快速变化的知识和错误前提的问题上都存在困难。受这些结果启发，我们提出了FreshPrompt，这是一种简单的少样本提示方法，通过将来自搜索引擎的相关和最新信息纳入提示，显著提高了LLMs在FreshQA上的性能。我们的实验表明，FreshPrompt优于竞争性的搜索引擎增强提示方法，如Self-Ask（Press等人，2022年）以及Perplexity.AI等商业系统。对FreshPrompt的进一步分析表明，检索到的证据的数量及其顺序在影响LLMs生成答案的正确性方面起着关键作用。此外，指导LLM生成简洁直接的答案比鼓励更冗长的答案有助于减少幻觉。为了促进未来的工作，我们在github.com/freshllms/freshqa上发布了FreshQA，并承诺定期更新。

一句话总结：

本研究提出了一种名为FreshQA的动态问答基准，通过结合搜索引擎信息和使用简洁提示方法，显著提升了大型语言模型在回答涉及快速变化知识和错误前提问题时的性能。

Retrieval-augmented Generation to Improve Math Question-Answering: Trade-offs Between Groundedness and Human Preference

发布时间：2023-10-04

作者：Zachary Levonian, Chenglu Li, Wangda Zhu, Anoushka Gade, Owen Henkel, Millie-Ellen Postle, Wanli Xing

中文摘要：

对于中学生来说，与导师进行互动问答（QA）是一种有效的学习方法。生成式大型语言模型（LLMs）的灵活性和涌现能力导致了自动处理辅导过程部分（包括支持数学概念概念讨论的互动问答）的兴趣激增。然而，LLMs对数学问题的回答可能是不正确的或与教育背景不匹配——例如，与学校的课程不一致。一个潜在的解决方案是检索增强生成（RAG），它涉及在LLM提示中纳入经过审查的外部知识源以提高回答质量。在这篇论文中，我们设计了提示，从高质量的开放源数学教科书中检索和使用内容来生成对真实学生问题的回答。我们通过进行多条件调查来评估这种RAG系统对中学代数和几何QA的有效性，发现人类更喜欢使用RAG生成的回答，但不是当回答过于基于教科书内容时。我们认为，虽然RAG能够提高回答质量，但数学QA系统的设计者必须考虑在生成学生偏好的回答和与特定教育资源紧密匹配的回答之间的权衡。

一句话总结：

本研究提出了一种基于检索增强生成的数学问答系统，通过结合外部知识源提高了回答质量，但设计者需在生成学生偏好回答和匹配特定教育资源之间进行权衡。

Retrieval meets Long Context Large Language Models

发布时间：2023-10-04

作者：Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu, Zihan Liu, Sandeep Subramanian, Evelina Bakhturina, Mohammad Shoeybi, Bryan Catanzaro

中文摘要：

近年来，扩展大型语言模型（LLMs）的上下文窗口变得越来越流行，而通过检索增强LLMs的解决方案已经存在多年。自然的问题包括：i) 检索增强与长上下文窗口，哪一个对下游任务更好？ii) 这两种方法能否结合以取长补短？在本工作中，我们通过使用两种最先进的预训练LLMs，即专有的430亿参数GPT和Llama2-70B，来研究这两种解决方案。也许令人惊讶的是，我们发现使用简单检索增强在生成时具有4K上下文窗口的LLM可以在长上下文任务上达到与通过位置插值在16K上下文窗口的微调LLM相当的性能，同时计算量要小得多。更重要的是，我们证明了检索可以显著提高LLMs的性能，无论其扩展的上下文窗口大小如何。我们的最佳模型，即具有32K上下文窗口的检索增强Llama2-70B，在包括问答、基于查询的摘要和上下文少样本学习任务在内的九个长上下文任务上的平均得分超过了GPT-3.5-turbo-16k和Davinci003。它还比其非检索的Llama2-70B-32k基线有显著提升，同时在生成速度上更快。我们的研究为实践者提供了关于选择检索增强与LLMs长上下文扩展的通用见解。

一句话总结：

本研究表明，通过检索增强可以显著提高LLMs的性能，即使在较小的上下文窗口下也能达到与更大窗口相当的效果。

Making Retrieval-Augmented Language Models Robust to Irrelevant Context

发布时间：2023-10-02

作者：Ori Yoran, Tomer Wolfson, Ori Ram, Jonathan Berant

中文摘要：

检索增强语言模型（RALMs）有望产生事实性、高效且时效性强的语言理解系统。RALMs的一个重要目标是，当检索到的信息相关时，它能帮助提高模型性能，而在信息不相关时则不会损害性能。这在多跳推理场景中尤为重要，因为滥用不相关证据可能导致连锁错误。然而，最近的研究表明，检索增强有时会对性能产生负面影响。在本研究中，我们对五个开放域问答基准进行了全面分析，描述了检索降低准确性的情况。然后，我们提出了两种缓解这一问题的方法。首先，一个简单的基线，它通过自然语言推理（NLI）模型过滤掉不包含问题-答案对的检索段落。这种方法在防止性能下降方面有效，但代价是也会丢弃相关段落。因此，我们提出了一种自动生成数据的方法，用于微调语言模型，以便在训练时能够正确利用检索到的段落，结合相关和不相关的上下文。我们通过实验表明，即使只有1,000个示例也足以训练模型，使其对不相关上下文具有鲁棒性，同时在具有相关上下文的示例上保持高性能。

一句话总结：

本研究分析了检索增强语言模型在问答任务中的性能影响，并提出了两种方法来缓解检索增强可能带来的性能下降问题。