Retrieval Augmented Generation - 2023年11月

IAG: Induction-Augmented Generation Framework for Answering Reasoning Questions

发布时间：2023-11-30

作者：Zhebin Zhang, Xinyu Zhang, Yuanhang Ren, Saijiang Shi, Meng Han, Yongkang Wu, Ruofei Lai, Zhao Cao

中文摘要：

通过结合外部知识与语言模型的参数化记忆，检索增强生成（RAG）已成为开放域问答任务的最先进架构。然而，常见的知识库由于覆盖范围有限和噪声信息而固有地受到限制，使得基于检索的方法不足以回答隐式推理问题。在本文中，我们提出了一种归纳增强生成（IAG）框架，该框架利用归纳知识与检索到的文档进行隐式推理。我们利用大型语言模型（LLMs）通过基于归纳推理模式的创新提示方法来推导此类知识。在此基础上，我们实现了两种版本的IAG，分别命名为IAG-GPT和IAG-Student。IAG-GPT直接利用GPT-3生成的知识进行答案预测，而IAG-Student通过整合学生归纳模型，在推理时摆脱了对GPT服务的依赖。该归纳模型首先通过知识蒸馏进行训练，然后通过通过可微分的束评分将生成器的反馈进行反向传播来进一步优化。实验结果表明，IAG在两个开放域问答任务上优于RAG基线以及ChatGPT。值得注意的是，我们的最佳模型在CSQA2.0（自2022年11月1日起）和StrategyQA（自2023年1月8日起）的官方排行榜上均获得第一名。

一句话总结：

本文提出的归纳增强生成（IAG）框架通过结合归纳知识和检索到的文档，显著提升了开放域问答任务的性能。

SenTest: Evaluating Robustness of Sentence Encoders

发布时间：2023-11-29

作者：Tanmay Chavan, Shantanu Patankar, Aditya Kane, Omkar Gokhale, Geetanjali Kale, Raviraj Joshi

中文摘要：

对比学习已被证明是视觉领域使用弱标签数据进行模型预训练的有效方法。句子转换器是这种架构在自然语言处理（NLP）领域的对应物，由于它们丰富的有效句子表示而越来越受欢迎。在信息检索、检索增强生成（RAG）和句子比较等多个任务中，有效的句子表示至关重要。考虑到转换器的部署因素，评估句子转换器的鲁棒性至关重要。本研究重点关注评估句子编码器的鲁棒性。我们采用几种对抗攻击来评估其鲁棒性。该系统使用字符级攻击，形式为随机字符替换，词级攻击，形式为同义词替换，以及句子级攻击，形式为句子内单词顺序的打乱。实验结果表明，句子编码器的鲁棒性受到严重削弱。模型在扰动数据集上的预测以及嵌入产生了显著差异。与未扰动数据集相比，模型在扰动数据集上的准确率可以降低高达15%。此外，实验表明，这些嵌入确实捕捉到了句子的语义和句法结构（句子顺序）。然而，现有的监督分类策略未能利用这些信息，仅仅充当n-gram检测器。

一句话总结：

本研究评估了句子编码器的鲁棒性，发现其在对抗攻击下表现不佳，且未能有效捕捉句子的语义和句法结构。

How to Build an AI Tutor that Can Adapt to Any Course and Provide Accurate Answers Using Large Language Model and Retrieval-Augmented Generation

发布时间：2023-11-29

作者：Chenxi Dong

中文摘要：

本文提出了一种低代码解决方案，用于构建一个AI辅导系统，该系统利用先进的AI技术，在个性化学习环境中提供准确且与上下文相关的响应。通过OpenAI Assistants API，AI辅导系统能够轻松嵌入、存储、检索和管理文件及聊天历史，从而实现低代码解决方案。大型语言模型（LLMs）和检索增强生成（RAG）技术基于特定课程材料生成复杂的答案。该应用通过向量嵌入和基于相似度的检索算法高效地组织并检索相关信息。AI辅导原型展示了其生成相关、准确答案并附有来源引用的能力。这代表了技术增强辅导系统的一个重要进步，使高等教育中高质量、定制化的教育支持更加普及。

一句话总结：

本文提出了一种基于低代码的AI辅导系统，利用先进AI技术提供个性化学习环境中的精准上下文相关响应，推动高等教育中优质教育支持的普及。

Biomedical knowledge graph-optimized prompt generation for large language models

发布时间：2023-11-29

作者：Karthik Soman, Peter W Rose, John H Morris, Rabia E Akbas, Brett Smith, Braian Peetoom, Catalina Villouta-Reyes, Gabriel Cerono, Yongmei Shi, Angela Rizk-Jackson, Sharat Israni, Charlotte A Nelson, Sui Huang, Sergio E Baranzini

中文摘要：

大型语言模型（LLMs）正以前所未有的速度被采用，但在生物医学等知识密集型领域仍面临挑战。预训练和领域特定微调等解决方案增加了大量的计算开销，需要进一步的专业知识。在这里，我们通过利用大规模生物医学知识图谱（SPOKE）和LLMs（如Llama-2-13b、GPT-3.5-Turbo和GPT-4）引入了一种基于知识图谱的检索增强生成（KG-RAG）框架，以生成基于现有知识的有意义生物医学文本。与现有针对知识图谱的RAG技术相比，提出的方法利用最小的图模式进行上下文提取，并使用嵌入方法进行上下文剪枝。这种上下文提取的优化导致标记消耗减少了50%以上，而不影响准确性，从而在专有LLMs上实现了成本效益高且鲁棒的RAG实现。KG-RAG通过生成基于现有知识的响应，并伴随准确的来源和统计证据（如有）来证实主张，一致性地提高了LLMs在多样化的生物医学提示中的性能。在人类编写的数据集（如生物医学真/假问题和多项选择题（MCQ））上的进一步基准测试表明，Llama-2模型在具有挑战性的MCQ数据集上的性能提高了71%，这证明了该框架能够赋予具有较少参数的开源模型以解决特定领域问题的能力。此外，KG-RAG还提高了专有GPT模型（如GPT-3.5和GPT-4）的性能。总之，所提出的框架以标记优化的方式结合了知识图谱和LLMs的显性和隐性知识，从而提高了通用LLMs以成本效益的方式解决特定领域问题的适应性。

一句话总结：

该研究提出了一种基于知识图谱的检索增强生成框架，通过优化上下文提取和利用大规模生物医学知识图谱，显著提升了大型语言模型在生物医学领域的性能。

RTLFixer: Automatically Fixing RTL Syntax Errors with Large Language Models

发布时间：2023-11-28

作者：Yun-Da Tsai, Mingjie Liu, Haoxing Ren

中文摘要：

本文提出了一种名为RTLFixer的新框架，该框架利用大型语言模型（LLMs）实现Verilog代码的自动语法错误修复。尽管LLMs具有令人期待的能力，但我们的分析表明，大约55%的LLM生成的Verilog错误与语法相关，导致编译失败。为了解决这个问题，我们引入了一种新的调试框架，该框架采用检索增强生成（RAG）和ReAct提示，使LLMs能够在交互式调试过程中作为自主代理进行代码调试并接收反馈。该框架在解决语法错误方面表现出色，成功纠正了我们调试数据集中约98.5%的编译错误，这些错误是从VerilogEval基准测试的212个错误实现中提取的。我们的方法在VerilogEval-Machine和VerilogEval-Human基准测试中分别使通过率提高了32.3%和10.1%。

一句话总结：

本文提出的RTLFixer框架利用大型语言模型和RAG技术，有效提高了Verilog代码语法错误的自动修复能力。

Novel Preprocessing Technique for Data Embedding in Engineering Code Generation Using Large Language Model

发布时间：2023-11-27

作者：Yu-Chen Lin, Akhilesh Kumar, Norman Chang, Wenliang Zhang, Muhammad Zakir, Rucha Apte, Haiyang He, Chao Wang, Jyh-Shing Roger Jang

中文摘要：

本文提出了四个主要贡献，以提升大型语言模型（LLMs）在生成特定领域代码方面的性能：一是利用基于LLM的数据拆分和数据重构技术，以改善嵌入空间中的语义表示；二是引入由LLM驱动的密度重构可信度链（CoDRC）和自适应文本重构（ATR）算法，用于评估数据重构的可靠性；三是开发隐式知识扩展和沉思（IKEC）提示技术；四是利用LLM有效地重构现有脚本，生成新颖且高质量的脚本。通过以工程仿真软件RedHawk-SC为案例研究，我们展示了我们数据预处理方法在扩展和分类脚本方面的有效性。当与IKEC结合使用时，这些技术增强了检索增强生成（RAG）方法在检索更多相关信息方面的能力，最终在MapReduce应用中的代码生成问题达到了73.33%的“正确行百分比”。

一句话总结：

本文通过结合多种技术，显著提升了大型语言模型在生成特定领域代码方面的性能。

DUnE: Dataset for Unified Editing

发布时间：2023-11-27

作者：Afra Feyza Akyürek, Eric Pan, Garry Kuwanto, Derry Wijaya

中文摘要：

即使是最先进的语言模型仍然容易出错，需要在不启动全面重新训练过程的情况下对这些模型进行修改。模型编辑指的是以产生预期结果的方式修改模型的知识或表示。先前的研究主要围绕编辑事实数据，例如“梅西为国际迈阿密队效力”，将编辑的定义限制在知识三元组（即主体、对象、关系）。然而，随着语言模型应用的扩展，我们希望编辑和改进其输出的方式也变得多样化。在本研究中，我们将编辑问题的范围扩展到包括一系列编辑案例，如去偏和纠正推理错误，并将编辑定义为任何请求模型输出变化的自然语言表达式。我们引入了DUnE——一个编辑基准，其中编辑是自然语言句子，并认为DUnE是一个具有挑战性但相关的任务。为了证实这一主张，我们进行了一系列广泛的实验，测试了各种编辑方法来解决DUnE，展示了它们各自的优势和劣势。我们发现，检索增强的语言模型可以优于专门的编辑技术，并且这两种方法都没有完全解决我们基准所涵盖的通用编辑问题。

一句话总结：

本研究扩展了模型编辑的范围，引入了DUnE基准，通过实验验证了检索增强语言模型在编辑任务中的潜力，并指出当前方法尚未完全解决通用编辑问题。

Deficiency of Large Language Models in Finance: An Empirical Examination of Hallucination

发布时间：2023-11-27

作者：Haoqiang Kang, Xiao-Yang Liu

中文摘要：

大型语言模型（LLMs）在应用于金融、教育和法律等领域时，其幻觉问题被公认为一个基本缺陷。尽管对此问题日益关注，但缺乏实证研究。在本文中，我们对LLMs在金融任务中的幻觉行为进行了实证考察。首先，我们实证研究了LLM模型解释金融概念和术语的能力。其次，我们评估了LLM模型查询历史股价的能力。第三，为了减轻幻觉问题，我们评估了四种实用方法的有效性，包括少样本学习、通过对比层解码（DoLa）、检索增强生成（RAG）方法和基于提示的工具学习方法。最后，我们的主要发现是，现成的LLMs在金融任务中表现出严重的幻觉行为。因此，迫切需要呼吁减轻LLMs幻觉的研究努力。

一句话总结：

本文实证研究了LLMs在金融任务中的幻觉问题，发现现成的LLMs存在严重幻觉行为，呼吁加强相关研究以减轻这一问题。

Rethinking Privacy in Machine Learning Pipelines from an Information Flow Control Perspective

发布时间：2023-11-27

作者：Lukas Wutschitz, Boris Köpf, Andrew Paverd, Saravan Rajmohan, Ahmed Salem, Shruti Tople, Santiago Zanella-Béguelin, Menglin Xia, Victor Rühle

中文摘要：

现代机器学习系统使用在日益增长的语料库上训练的模型。通常，在训练过程中会忽略诸如所有权、访问控制或许可信息等元数据。相反，为了减轻隐私风险，我们依赖于如数据集净化和差分隐私模型训练等通用技术，这些技术固有的隐私/效用权衡会损害模型性能。此外，这些技术在敏感信息需要在多个参与者之间共享且需要细粒度访问控制的情况下存在局限性。因此，忽略元数据使我们错失了更好地解决安全、隐私和保密挑战的机会。在本文中，我们采用信息流控制视角来描述机器学习系统，这使我们能够利用诸如访问控制策略等元数据，并通过可解释的信息流定义明确的隐私和保密保障。在这种视角下，我们对比了两种实现用户级非干扰的不同方法：1）针对每个用户微调模型，2）在推理时访问用户特定数据集的检索增强模型。我们使用公共模型将这两种方法与一个零干扰的基线进行比较，以及与在整个语料库上微调该模型的基线进行比较。我们在两个科学论文数据集上评估了训练好的模型，并证明检索增强架构在满足严格的非干扰保障的同时，提供了最佳的功效、可扩展性和灵活性。

一句话总结：

本文提出了一种基于信息流控制视角的机器学习系统，通过利用元数据实现了用户级非干扰，同时提高了模型的功效和灵活性。

Probabilistic Tree-of-thought Reasoning for Answering Knowledge-intensive Complex Questions

发布时间：2023-11-23

作者：Shulin Cao, Jiajie Zhang, Jiaxin Shi, Xin Lv, Zijun Yao, Qi Tian, Juanzi Li, Lei Hou

中文摘要：

大型语言模型（LLMs）能够通过思维链（CoT）推理来回答知识密集型复杂问题。然而，当模型参数中缺乏所需知识或知识过时时，它们往往会生成事实错误的分析步骤。近期的研究转向检索外部知识以增强CoT推理。尽管这些基于链的方法很有前景，但它们存在以下问题：1）负面检索。不必要的或错误的检索可能会误导推理；2）视野有限。缺乏回顾或前瞻的能力，单个步骤中的局部错误会沿着链传播。在本文中，我们提出了一种新颖的方法：概率思维树推理（ProbTree）。首先，LLMs将复杂问题转化为查询树，其中每个非根节点表示其父节点的子问题。然后，通过从叶节点到根节点解决问题，并考虑问题分解和回答的置信度，在树上进行概率推理。在推理过程中，对于叶节点，LLMs从使用参数化知识的闭卷问答（Closed-book QA）和使用检索的外部知识的开卷问答（Open-book QA）中选择更自信的答案，从而消除负面检索问题。对于非叶节点，由于层次结构，LLMs具有更广阔的视野，能够利用子节点信息进行全局推理，从而恢复局部错误。在开放域设置下，对三个复杂问答数据集进行的实验表明，我们的方法显著优于SOTA方法，证明了概率思维树推理的有效性。

一句话总结：

本文提出了一种基于概率思维树推理的方法，有效提升了大型语言模型在复杂问答任务中的推理准确性。

Minimizing Factual Inconsistency and Hallucination in Large Language Models

发布时间：2023-11-23

作者：Muneeswaran I, Shreya Saxena, Siva Prasad, M V Sai Prakash, Advaith Shankar, Varun V, Vishal Vaddina, Saisubramaniam Gopalakrishnan

中文摘要：

大型语言模型（LLMs）在医疗保健、教育和金融等关键领域得到广泛应用，因为它们在处理各种语言相关任务方面表现出色。然而，LLMs容易产生事实错误或“幻觉”的回答，这可能导致用户对模型失去信任。为了解决这个问题，我们提出了一种多阶段框架，首先生成推理依据，然后验证和修正错误，并使用这些修正后的依据作为支持参考来生成答案。生成的推理依据增强了答案的透明度，我们的框架通过使用这个推理依据和上下文参考，提供了模型如何得出这个答案的见解。在本文中，我们展示了该框架在提高生命科学行业药物相关咨询回答质量方面的有效性。我们的框架通过使OpenAI GPT-3.5-turbo在两个数据集上更加忠实（14-25%）和更准确（16-22%）地工作，改进了传统的检索增强生成（RAG）。此外，基于我们的框架微调的样本将小型开放访问LLMs的准确性提高了33-42%，并在商业模型上与RAG相竞争。

一句话总结：

该研究提出的多阶段框架通过增强推理依据的透明度，显著提高了LLMs在药物相关咨询回答中的准确性和可靠性。

Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation

发布时间：2023-11-22

作者：Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa

中文摘要：

内容感知图形布局生成旨在自动安排与给定内容（如电子商务产品图片）一起的视觉元素。在本文中，我们提出当前布局生成方法因高维布局结构的训练数据有限而存在局限性。我们展示了简单的检索增强可以显著提高生成质量。我们提出的模型名为检索增强布局转换器（Retrieval-Augmented Layout Transformer，RALF），它基于输入图像检索最邻近的布局示例，并将这些结果输入到自回归生成器中。我们的模型可以将检索增强应用于各种可控生成任务，并在统一架构中生成高质量的布局。我们的广泛实验表明，RALF在约束和非约束设置中均成功生成内容感知布局，并且显著优于基线。

一句话总结：

本文提出的检索增强布局转换器（RALF）通过检索增强技术显著提高了内容感知图形布局生成的质量和效率。

AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations

发布时间：2023-11-22

作者：Zhicheng Yang, Yinya Huang, Jing Xiong, Liang Feng, Xiaodan Liang, Yiwei Wang, Jing Tang

中文摘要：

大型语言模型（LLMs）的提示技术，如使用情境演示，是调用LLMs进行高性能和坚实的复杂推理（例如，数学推理、常识推理）的主流技术，并具有进一步实现人机协作科学发现的潜力。然而，当前的LLMs在提示词和风格上既敏感又难以捉摸。LLMs的理解与人类编写的提示之间存在一个未知的差距。本文介绍了AlignedCoT，这是一种LLMs熟悉的提示技术，它包括在情境学习中为LLMs提供熟练的“母语”能力。具体来说，它通过逐步探测、精炼和格式化LLMs的思维链，在零样本场景中实现一致和正确的逐步提示，从而在无需手工制作的少量样本演示的同时保持提示质量。我们在数学推理和常识推理上进行了实验。我们发现，具有AlignedCoT的LLMs在性能上显著优于那些使用人类编写的演示的LLMs。我们进一步将AlignedCoT应用于重写GSM8k训练集，产生了GSM8k-Align数据集。我们观察到它在检索增强生成中的好处。

一句话总结：

本文提出的AlignedCoT技术通过优化LLMs的提示方式，显著提升了其在数学和常识推理任务上的性能，并展示了其在数据集重写和检索增强生成中的应用潜力。

Don't forget private retrieval: distributed private similarity search for large language models

发布时间：2023-11-21

作者：Guy Zyskind, Tobin South, Alex Pentland

中文摘要：

尽管大型语言模型（LLMs）的灵活能力允许它们根据现有学习到的知识回答各种查询，但信息检索作为一种增强生成的方法，对于使LLMs能够回答训练数据中未包含的信息的问题至关重要。这种私有信息正越来越多地由组织和个人在广泛的分布式环境中生成。使用查询和文档的神经嵌入进行此类信息检索时，除非两者都存储在本地，否则总会泄露关于查询和数据库内容的信息。我们提出了私有检索增强生成（PRAG）方法，它使用多方计算（MPC）安全地将查询传输到包含私有构建的数据库的分布式服务器，以返回top-k和近似top-k文档。这是密集信息检索领域的一种首创方法，确保没有任何服务器可以观察到客户端的查询或查看数据库内容。该方法引入了一种新的MPC友好协议，用于倒排文件近似搜索（IVF），允许在子线性通信复杂度下快速搜索分布式和私有数据。这项工作提出了新的途径，通过这些途径可以访问和使用LLMs中的数据，而无需集中化或牺牲隐私。

一句话总结：

PRAG通过多方计算技术实现了在保护隐私的前提下，对分布式数据库进行高效的信息检索，以增强大型语言模型的知识获取能力。

AR Visualization System for Ship Detection and Recognition Based on AI

发布时间：2023-11-21

作者：Ziqi Ye, Limin Huang, Yongji Wu, Min Hu

中文摘要：

增强现实技术在工业设计交互、展览导览、信息检索等领域得到了广泛应用。人工智能与增强现实技术的结合也已成为未来发展趋势。本项目是一个基于人工智能的船舶检测与识别AR可视化系统，主要包括三个部分：人工智能模块、Unity开发模块和Hololens2AR模块。本项目基于R3Det算法完成遥感图像中船舶的检测与识别。在RTX 2080Ti上训练的模型检测识别率可达96%。随后，通过船舶类别和信息生成船舶的3D模型，并在虚拟场景中进行展示。同时，增加了语音模块和UI交互模块。最后，通过MRTK完成了在Hololens2上的项目部署。该系统实现了计算机视觉与增强现实技术的融合，将物体检测结果映射到AR领域，勇敢地迈出了未来技术趋势和智能应用的一大步。

一句话总结：

本项目成功开发了一个基于人工智能的船舶检测与识别AR可视化系统，实现了计算机视觉与增强现实技术的融合，为智能应用和未来技术趋势提供了有力支持。

Towards Robust Text Retrieval with Progressive Learning

发布时间：2023-11-20

作者：Tong Wu, Yulei Qin, Enwei Zhang, Zihan Xu, Yuting Gao, Ke Li, Xing Sun

中文摘要：

检索增强已成为一种有效的方法，它通过从数据库中获取外部和经过验证的知识源来赋能大型语言模型（LLMs），从而克服了LLMs在处理最新和特定领域信息时的局限性和幻觉。然而，现有的用于文本检索的嵌入模型通常存在三个不可忽视的局限性。首先，批量中样本的数量和多样性过于有限，无法在规模上监督文本细微差别的建模。其次，高比例的噪声对嵌入的语义正确性和一致性有害。第三，对简单和困难样本的同等处理会导致嵌入的次优收敛，从而降低泛化能力。在本文中，我们提出了PEG，一种用于鲁棒文本检索的渐进式学习嵌入。具体来说，我们将批量中的负样本数量增加到80,000，并为每个查询提取五个困难负样本。同时，我们引入了一种渐进学习机制，使模型能够在整个训练过程中动态调节其对样本的注意力。此外，PEG在超过1亿的数据上进行训练，涵盖了广泛的领域（例如，金融、医学和旅游）以及各种任务（例如，问答、机器阅读理解以及相似度匹配）。在C-MTEB和DuReader上进行的广泛实验表明，PEG在检索真实正样本方面超越了最先进的嵌入，突显了其在LLMs应用中的巨大潜力。我们的模型可在https://huggingface.co/TownsWu/PEG公开获取。

一句话总结：

本文提出的PEG模型通过渐进式学习和大规模数据训练，显著提升了大型语言模型在文本检索中的性能和鲁棒性。

On Retrieval Augmentation and the Limitations of Language Model Training

发布时间：2023-11-16

作者：Ting-Rui Chiang, Xinyan Velocity Yu, Joshua Robinson, Ollie Liu, Isabelle Lee, Dani Yogatama

中文摘要：

通过仅在其训练数据上使用 $k$-最近邻（$k$NN）检索来增强语言模型（LM），可以降低其困惑度，尽管其背后的原因仍然难以捉摸。在这项工作中，我们排除了一个先前提出的可能性——即“softmax瓶颈”。然后，我们创建了一个新的数据集来评估LM在训练数据包含额外信息但与因果关系无关的设置下的泛化能力。这项任务即使是对于GPT-3.5 Turbo来说也是具有挑战性的。我们发现，对于GPT-2和Mistral 7B，$k$NN检索增强在这个设置下始终能提高性能。最后，为了使$k$NN检索更加易于访问，我们提出使用多层感知器模型，该模型将数据存储键映射到值，作为传统检索的即插即用替代品。这通过超过25倍的方式降低了存储成本。

一句话总结：

通过在训练数据上使用$k$NN检索增强语言模型，可以显著提高其泛化能力，同时降低存储成本。

ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems

发布时间：2023-11-16

作者：Jon Saad-Falcon, Omar Khattab, Christopher Potts, Matei Zaharia

中文摘要：

评估检索增强生成（RAG）系统通常依赖于手工标注的输入查询、检索的段落以及生成的响应。我们引入了ARES（自动RAG评估系统），用于从上下文相关性、答案忠实度和答案相关性等维度评估RAG系统。通过创建自己的合成训练数据，ARES微调轻量级语言模型法官来评估单个RAG组件的质量。为了减轻潜在的预测错误，ARES利用一小部分人工标注的数据点进行预测驱动的推理（PPI）。在KILT、SuperGLUE和AIS的八个不同知识密集型任务中，ARES在评估过程中仅使用了数百个人工标注，就能准确评估RAG系统。此外，ARES的法官在领域迁移中仍然有效，即使在改变评估的RAG系统中使用的查询类型和/或文档类型后，也能保持准确性。我们将我们的代码和数据集公开在GitHub上。

一句话总结：

ARES是一个自动化的RAG评估系统，通过使用合成数据和少量人工标注，能够准确评估RAG系统的性能。

Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders

发布时间：2023-11-16

作者：Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo

中文摘要：

当前的研究实践往往依赖于在现有的大型数据集（如MSMARCO）上训练密集检索器，然后尝试各种方法来提高零样本泛化能力以适应未见过的领域。尽管先前的研究通过数据增强、架构修改、增加模型大小甚至进一步的基础模型预训练等资源密集型步骤来应对这一挑战，但相对较少的研究探讨了是否可以通过改进训练过程本身来提高最终模型的泛化能力。在本研究中，我们提出了一种简单的训练密集编码器的配方：使用参数高效的训练方法（如LoRA）在MSMARCO上进行训练，除非提供精心构建的硬负样本，否则选择使用批内负样本。我们使用BEIR基准验证了这些建议，并发现结果在不同密集编码器和基础模型大小选择下均保持一致，并且与其他资源密集型策略（如架构修改或额外预训练）互补。我们希望这项关于各种训练技术的全面且公正的研究，能够为开发在单个数据集上训练也能有效泛化的密集检索模型提供实用的见解。

一句话总结：

本研究提出了一种通过参数高效的方法和改进的训练过程来提升密集检索模型泛化能力的简单配方。

Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis

发布时间：2023-11-16

作者：Kexin Chen, Junyou Li, Kunyi Wang, Yuyang Du, Jiahui Yu, Jiamin Lu, Lanqing Li, Jiezhong Qiu, Jianzhang Pan, Yi Huang, Qun Fang, Pheng Ann Heng, Guangyong Chen

中文摘要：

近年来，人工智能研究在化学社会中描绘了自动化学反应的广阔前景。本研究提出了一种名为Chemist-X的颠覆性人工智能代理，它利用检索增强生成（RAG）技术自动化化学合成中的反应条件推荐（RCR）任务。为了在解决RCR任务时模仿专家化学家的策略，Chemist-X利用先进的RAG方案来查询在线分子数据库，并从最新的文献数据库中提炼关键数据。此外，该代理利用了最先进的计算机辅助设计（CAD）工具和大型语言模型（LLM）监督编程接口。凭借利用更新化学知识和CAD工具的能力，我们的代理在性能上显著优于仅限于其训练数据中固定知识的传统合成AI。Chemist-X大幅减轻了化学家的工作负担，使他们能够专注于更基本和更具创造性的问题，从而拉近计算技术与化学研究之间的距离，并在利用人工智能的全面能力进行科学发现方面迈出了显著的步伐。

一句话总结：

Chemist-X通过自动化化学合成中的反应条件推荐任务，显著提高了化学家的工作效率，并推动了计算技术与化学研究的融合。

Empirical evaluation of Uncertainty Quantification in Retrieval-Augmented Language Models for Science

发布时间：2023-11-15

作者：Sridevi Wagle, Sai Munikoti, Anurag Acharya, Sara Smith, Sameera Horawalavithana

中文摘要：

大型语言模型（LLMs）在自然语言处理任务中取得了显著的成就，能够生成高质量的输出。然而，LLMs仍然存在局限性，包括生成事实错误的信息。在安全关键的应用中，评估LLM生成内容的置信度对于做出明智的决策至关重要。检索增强语言模型（RALMs）是自然语言处理（NLP）研究中的一个相对较新的领域。RALMs为科学NLP任务提供了潜在的好处，因为检索到的文档可以作为支持模型生成内容的证据。这种证据的包含增强了可信度，因为用户可以验证和探索检索到的文档以验证模型输出。量化RALM生成中的不确定性进一步提高了可信度，检索到的文本和置信度分数有助于构建一个全面可靠的模型，适用于科学应用。然而，关于RALMs的不确定性量化（UQ）研究有限，尤其是在科学背景下。本研究旨在通过全面评估RALMs中的UQ来填补这一空白，重点关注科学任务。这项研究探讨了当将科学知识作为预训练和检索数据纳入时，不确定性分数如何变化，并探讨了不确定性分数与模型生成输出准确率之间的关系。我们观察到，使用科学知识作为检索数据微调的现有RALM在生成预测时比仅使用科学知识预训练的模型更有信心。我们还发现，RALMs在预测中过于自信，比准确预测更自信地做出不准确预测。无论是作为预训练还是检索语料库提供的科学知识都无法缓解这一问题。我们在https://github.com/pnnl/EXPERT2上发布了我们的代码、数据和仪表板。

一句话总结：

本研究通过评估检索增强语言模型在科学任务中的不确定性量化，旨在提高模型生成内容的可信度和准确性。

Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models

发布时间：2023-11-15

作者：Wenhao Yu, Hongming Zhang, Xiaoman Pan, Kaixin Ma, Hongwei Wang, Dong Yu

中文摘要：

检索增强语言模型（RALMs）在大型语言模型的能力方面取得了重大进步，特别是在减少事实幻觉方面，这得益于利用外部知识源。然而，检索到的信息的可靠性并不总是有保证。检索到的无关数据可能导致误导性回答，甚至可能导致模型忽略其固有的知识，即使它拥有足够的信息来回答查询。此外，标准RALMs通常难以评估它们是否拥有足够的知识，无论是内在的还是检索到的，以提供准确的答案。在知识缺乏的情况下，这些系统理想情况下应该在答案不可获得时回答“未知”。针对这些挑战，我们引入了笔记链（CoN），这是一种旨在提高RALMs在面对嘈杂、无关文档以及处理未知场景时的鲁棒性的新颖方法。CoN的核心思想是为检索到的文档生成顺序阅读笔记，从而能够彻底评估它们与给定问题的相关性，并将这些信息整合到最终答案的制定中。我们使用ChatGPT创建CoN的训练数据，随后在LLaMa-2 7B模型上对其进行训练。我们在四个开放域问答基准上的实验表明，配备CoN的RALMs在性能上显著优于标准RALMs。值得注意的是，CoN在完全嘈杂的检索文档中实现了+7.9的平均EM分数提升，在超出预训练知识范围的实时问题中的拒绝率提高了+10.5。

一句话总结：

笔记链（CoN）通过为检索到的文档生成顺序阅读笔记，显著提升了检索增强语言模型在面对嘈杂数据和未知场景时的鲁棒性和准确性。

PEARL: Personalizing Large Language Model Writing Assistants with Generation-Calibrated Retrievers

发布时间：2023-11-15

作者：Sheshera Mysore, Zhuoran Lu, Mengting Wan, Longqi Yang, Steve Menezes, Tina Baghaee, Emmanuel Barajas Gonzalez, Jennifer Neville, Tara Safavi

中文摘要：

强大的大型语言模型（LLM）促进了写作助手的发展，这些助手承诺将显著提高写作和沟通的质量和效率。然而，有效辅助的一个障碍是LLM输出中对作者沟通风格和专业知识个性化的缺乏。在本文中，我们通过提出PEARL，一种具有生成校准检索器的检索增强型LLM写作助手来解决这一挑战。我们的检索器被训练来选择历史用户创建的文档进行提示增强，这样它们更有可能为用户请求提供最佳个性化LLM生成。我们为训练我们的检索器提出了两个关键创新：1）一种训练数据选择方法，该方法识别出可能从个性化中受益的用户请求以及提供这种受益的文档；2）一种规模校准的KL散度目标，确保我们的检索器紧密跟踪文档对个性化生成的益处。我们展示了PEARL在生成个性化职场社交媒体帖子Reddit评论方面的有效性。最后，我们展示了生成校准检索器作为性能预测器的潜力，并通过LLM链进一步改善低质量生成。

一句话总结：

本文提出了一种名为PEARL的个性化写作助手，通过生成校准检索器实现LLM输出的个性化，有效提升了写作和沟通的质量。

Ever: Mitigating Hallucination in Large Language Models through Real-Time Verification and Rectification

发布时间：2023-11-15

作者：Haoqiang Kang, Juntong Ni, Huaxiu Yao

中文摘要：

大型语言模型（LLMs）在生成流畅文本方面表现出色。然而，它们常常面临生成不准确或幻觉内容的问题。这一问题在非检索式生成和检索增强式生成方法中都普遍存在，而现有的事后纠正方法可能无法解决由“滚雪球”问题引起的累积幻觉错误，尤其是在推理任务中。为了应对这些挑战，我们提出了一种名为实时验证和纠正（Ever）的新方法。Ever不是等到生成过程结束时才纠正幻觉，而是采用实时、逐步的生成和幻觉纠正策略。主要目标是检测和纠正文本生成过程中出现的幻觉。与基于检索和非基于检索的基线相比，Ever在生成可信和事实准确的文本方面表现出显著改进，涵盖了包括短问答、传记生成和多跳推理在内的多种任务。

一句话总结：

Ever通过实时检测和纠正幻觉，显著提高了大型语言模型生成准确文本的能力。

ACID: Abstractive, Content-Based IDs for Document Retrieval with Language Models

发布时间：2023-11-14

作者：Haoxin Li, Phillip Keung, Daniel Cheng, Jungo Kasai, Noah A. Smith

中文摘要：

生成式检索（Wang et al., 2022; Tay et al., 2022）是一种新的端到端文档检索方法，它根据输入查询直接生成文档标识符。设计有效、高质量的文档标识符的技术仍大部分未被探索。我们引入了ACID，其中每个文档的ID由大型语言模型生成的摘要关键词短语组成，而不是像过去工作那样使用整数ID序列。我们将我们的方法与当前最先进的ID生成技术进行了比较，该技术通过文档嵌入的层次聚类来生成ID。我们还考察了生成自然语言文档ID的更简单的方法，包括使用每个文档的前k个单词作为其ID或在该文档中具有高BM25得分的单词的朴素方法。我们发现使用ACID将MSMARCO 100k检索任务上的top-10和top-20准确率分别提高了15.6%和14.4%（相对），在Natural Questions 100k检索任务上分别提高了4.4%和4.0%。我们的结果表明，在LM的生成检索中，可读性强的自然语言ID是有效的。用于重现我们结果的代码和关键词增强的数据集将在正式发表时发布。

一句话总结：

ACID通过使用大型语言模型生成的摘要关键词短语作为文档ID，显著提高了文档检索的准确率。

Bring Your Own KG: Self-Supervised Program Synthesis for Zero-Shot KGQA

发布时间：2023-11-14

作者：Dhruv Agarwal, Rajarshi Das, Sopan Khosla, Rashmi Gangadharaiah

中文摘要：

我们提出了一种名为BYOKG的通用问答（QA）系统，该系统能够在任何知识图谱（KG）上运行，无需人工标注的训练数据，并且可以在一天内准备就绪——这些特性是当前KGQA系统所不具备的。BYOKG借鉴了人类通过探索来理解未见过的知识图谱中信息的非凡能力——从随机节点开始，检查相邻节点和边的标签，并将它们与先前的世界知识相结合。在BYOKG中，探索利用了一个由大型语言模型（LLM）支持的符号代理，该代理生成一系列多样化的查询程序示例，然后使用这些示例来定位检索增强推理过程，以预测任意问题的程序。BYOKG在小型和大型图谱上均有效，在GrailQA和MetaQA上分别相对于零样本基线实现了27.89和58.02的F1分数的显著提升。在GrailQA上，我们进一步表明，我们的无监督BYOKG优于监督的上下文学习方法，证明了探索的有效性。最后，我们发现BYOKG的性能随着持续探索以及基础LLM的改进而可靠地提高，在GrailQA的一个子样本零样本分割上，其F1分数比最先进的微调模型高出7.08。

一句话总结：

BYOKG是一种无需人工标注数据即可在任意知识图谱上运行的通用问答系统，通过探索和检索增强推理显著提升了问答准确率。

From Classification to Generation: Insights into Crosslingual Retrieval Augmented ICL

发布时间：2023-11-11

作者：Xiaoqian Li, Ercong Nie, Sheng Liang

中文摘要：

大型语言模型（LLMs）在理解和遵循指令方面的非凡能力有时会受到其在低资源语言中的上下文学习（ICL）性能的限制。为了解决这个问题，我们提出了一种新颖的方法，即跨语言检索增强的上下文学习（CREA-ICL）。通过从高资源语言中提取语义相似的提示，我们旨在提高多语言预训练语言模型（MPLMs）在多样化任务中的零样本性能。尽管我们的方法在分类任务中带来了稳定的改进，但在生成任务中面临挑战。我们的评估为检索增强的上下文学习在分类和生成领域的性能动态提供了洞见。

一句话总结：

本研究提出了一种利用跨语言检索增强的上下文学习方法，旨在提升多语言预训练语言模型在低资源语言中的性能，并揭示了其在分类和生成任务中的性能动态。

Making LLMs Worth Every Penny: Resource-Limited Text Classification in Banking

发布时间：2023-11-10

作者：Lefteris Loukas, Ilias Stogiannidis, Odysseas Diamantopoulos, Prodromos Malakasiotis, Stavros Vassos

中文摘要：

在自然语言处理（NLP）领域，标准的全数据分类器需要数千个标记样本，这在数据有限领域是不切实际的。少样本方法提供了一种替代方案，利用对比学习技术，即使每个类别的样本数量只有20个，也能有效。同样，大型语言模型（LLMs）如GPT-4只需每个类别1-5个样本就能有效执行。然而，这些方法的性能-成本权衡仍然没有得到充分探索，这对于预算有限的组织来说是一个关键问题。我们的工作通过在Banking77金融意图检测数据集上研究上述方法，包括对OpenAI、Cohere和Anthropic等公司开发的尖端LLMs在一系列少样本场景中的评估，来填补这一空白。我们通过两种额外的方法完善了这一研究：首先，一种基于检索增强生成（RAG）的、成本效益高的LLMs查询方法，与经典的少样本方法相比，能够将运营成本降低数倍；其次，一种使用GPT-4的数据增强方法，能够在数据有限场景中提高性能。最后，为了启发未来的研究，我们提供了一个由人类专家精心挑选的Banking77子集，以及广泛的分析错误。

一句话总结：

本研究通过在Banking77数据集上评估少样本方法和LLMs，并提出成本效益高的查询和数据增强方法，为数据有限领域的NLP分类器性能-成本权衡提供了新的见解。

Vox Populi, Vox ChatGPT: Large Language Models, Education and Democracy

发布时间：2023-11-10

作者：Niina Zuber, Jan Gogoll

中文摘要：

在生成式人工智能时代，尤其是以ChatGPT为代表的大型语言模型（LLMs）的兴起，人工智能与人类推理的交汇点已成为全球关注的焦点。与传统的搜索引擎不同，LLMs超越了单纯的信息检索，进入了话语文化的领域。其输出模仿深思熟虑的独立观点或事实陈述，呈现出智慧的假象。本文探讨了LLMs对民主社会可能产生的变革性影响。文章深入探讨了区分ChatGPT生成的文本与人类输出的困难。讨论强调了作者身份的本质，这种身份根植于人类独特的推理能力——这是民主话语和自由社会中成功合作不可或缺的品质。本文突出了对民主的潜在威胁，提出了三个论点：替代论点、真实性论点和事实论点。这些论点突出了过度依赖LLMs可能带来的潜在风险。中心论点认为，如果不主动和正确地理解和应对，LLMs的广泛部署可能会对民主的结构产生不利影响。在提出解决方案时，我们主张教育作为减轻风险的手段。我们建议培养儿童的思维能力，促进连贯的思想形成，并区分机器生成的输出和真正的、即人类的推理。重点应放在LLMs的负责任开发和利用上，目标是增强人类在思考、审议和决策方面的能力，而不是替代它们。

一句话总结：

本文探讨了大型语言模型对民主社会的潜在影响，强调了教育在培养批判性思维和区分机器与人类推理中的重要性。

Establishing Performance Baselines in Fine-Tuning, Retrieval-Augmented Generation and Soft-Prompting for Non-Specialist LLM Users

发布时间：2023-11-10

作者：Jennifer Dodgson, Lin Nanzheng, Julian Peh, Akira Rafhael Janson Pattirane, Alfath Daryl Alhajir, Eko Ridho Dinarto, Joseph Lim, Syed Danyal Ahmad

中文摘要：

本文研究了通过微调、检索增强生成（RAG）和软提示等方法来提升大型语言模型（LLMs）性能的方法。以往的研究往往集中在使用高度技术或高成本的技术上，使得许多新发现的方法对非技术用户相对难以接触。在本文中，我们测试了未经修改的GPT 3.5版本、经过微调的版本，以及当模型能够访问向量化的RAG数据库时，同样未经修改的模型，这些测试都是在独立使用以及与一个基本的、非算法性的软提示结合使用的情况下进行的。在每种情况下，我们都测试了模型回答一组100个问题的能力，这些问题主要涉及2021年9月之后发生的事件（这是GPT 3.5的训练数据集结束的点）。我们发现，如果使用商业平台并应用默认设置，不进行迭代以建立一组基线输出，那么微调模型的表现优于GPT 3.5 Turbo，而RAG方法的表现则优于两者。软提示的应用显著提高了每种方法的表现。

一句话总结：

本文通过实验验证了微调、检索增强生成和软提示等方法在提升大型语言模型性能方面的有效性，并发现这些方法在实际应用中具有较好的表现。

Large Language Models and Prompt Engineering for Biomedical Query Focused Multi-Document Summarisation

发布时间：2023-11-09

作者：Diego Mollá

中文摘要：

本文报道了使用提示工程和GPT-3.5进行生物医学查询导向的多文档摘要的应用。通过使用GPT-3.5和适当的提示，我们的系统在2023年BioASQ挑战赛（BioASQ 11b）中获得了获取短段落大小答案的生物医学问题的最高ROUGE-F1结果。本文证实了在其他领域观察到的现象：1) 包含少量样本的提示通常优于其零样本变体；2) 通过检索增强生成实现了最大的改进。这些提示使得我们的最佳运行能够排名在BioASQ 11b的前两名，这证明了在查询导向摘要中，使用适当的提示对于大型语言模型（尤其是GPT-3.5）的强大作用。

一句话总结：

本文展示了使用GPT-3.5和提示工程在生物医学查询导向的多文档摘要任务中取得了显著成果，并通过检索增强生成实现了最佳性能。

Enhancing LLM Intelligence with ARM-RAG: Auxiliary Rationale Memory for Retrieval Augmented Generation

发布时间：2023-11-07

作者：Eric Melz

中文摘要：

大型语言模型（LLMs）虽然智能但容易遗忘。近期的研究（例如，Bubeck等人，2023年）表明，现代LLMs能够执行通常需要人类水平智能的惊人任务。然而，与人类不同，冻结的LLMs不会随着时间的推移而改进；它们既不获取新知识，也不从成功或失败中学习。提高LLMs智能的一些方法包括基于问题解决性能的模型微调（Zelikman等人，2022年）和构建更大、更复杂的模型（Bubeck等人，2023年）。然而，这些方法存在需要大量数据和计算资源来重新训练现有模型的缺点。在本文中，我们探讨了使用检索增强生成（也称为RAG，Lewis等人，2021年）来提高问题解决性能。我们提出了ARM-RAG（用于检索增强生成的辅助推理记忆），这是一个无需承担高训练成本就能从其成功中学习的系统。我们证明了存储和随后检索推理链对解决小学数学问题中的性能有积极影响。

一句话总结：

本文提出了一种名为ARM-RAG的系统，通过存储和检索推理链来提高LLMs在解决数学问题上的性能，同时降低训练成本。

Retrieval-Augmented Code Generation for Universal Information Extraction

发布时间：2023-11-06

作者：Yucan Guo, Zixuan Li, Xiaolong Jin, Yantao Liu, Yutao Zeng, Wenxuan Liu, Xiang Li, Pan Yang, Long Bai, Jiafeng Guo, Xueqi Cheng

中文摘要：

信息提取（IE）旨在从自然语言文本中提取结构化知识（例如实体、关系、事件），由于任务特定的模式和复杂的文本表达，这对现有方法提出了挑战。代码作为一种典型的形式化语言，能够以通用的方式在各种模式下描述结构化知识。另一方面，在代码和文本上训练的大型语言模型（LLMs）已经展示了将文本转换为代码的强大能力，这为IE任务提供了一种可行的解决方案。因此，在本文中，我们提出了一种基于LLMs的通用检索增强代码生成框架，称为Code4UIE，用于IE任务。具体来说，Code4UIE采用Python类以通用方式定义各种结构化知识的任务特定模式。通过这种方式，在这些模式下的知识提取可以转化为生成代码，这些代码使用文本中的信息实例化预定义的Python类。为了更精确地生成这些代码，Code4UIE采用上下文学习机制来指导LLMs使用示例。为了获得不同任务的适当示例，Code4UIE探索了多种示例检索策略，这些策略可以检索与给定文本语义上相似的示例。在九个数据集上的五个代表性IE任务上的大量实验证明了Code4UIE框架的有效性。

一句话总结：

本文提出了一种基于LLMs的通用检索增强代码生成框架Code4UIE，用于信息提取任务，通过将知识提取转化为代码生成，显著提高了信息提取的准确性和效率。

AI-TA: Towards an Intelligent Question-Answer Teaching Assistant using Open-Source LLMs

发布时间：2023-11-05

作者：Yann Hicke, Anmol Agarwal, Qianou Ma, Paul Denny

中文摘要：

每个学期应对在线问答平台上成千上万的学生问题都需要付出相当的人力成本，尤其是在快速增长的计算机课程中。为了解决可扩展和智能问答（QA）的挑战，我们提出了一种创新解决方案，该方案利用LLaMA-2家族的开源大型语言模型（LLMs）来确保数据隐私。我们的方法结合了检索增强生成（RAG）、监督微调（SFT）以及使用直接偏好优化（DPO）从人类偏好数据中学习的技术。通过对一个来自入门级计算机科学课程的Piazza数据集进行广泛实验，该数据集包含10,000个问答对和1,500对偏好数据，我们展示了答案质量显著提高了30%，其中RAG的加入尤其具有影响力。我们的贡献包括开发了一种新的教育问答架构，对LLM性能进行了广泛的评估，既使用了人类评估又使用了基于LLM的指标，并对教育数据处理中的挑战和未来方向提供了见解。这项工作为开发AI教学助理（AI-TA），一种可定制于具有在线问答平台的课程的智能问答助手铺平了道路。

一句话总结：

本研究提出了一种基于LLMs的教育问答系统，通过结合多种技术显著提高了问答质量，为AI教学助理的开发奠定了基础。

Large Language Models Illuminate a Progressive Pathway to Artificial Healthcare Assistant: A Review

发布时间：2023-11-03

作者：Mingze Yuan, Peng Bao, Jiajia Yuan, Yunhao Shen, Zifan Chen, Yi Xie, Jie Zhao, Yang Chen, Li Zhang, Lin Shen, Bin Dong

中文摘要：

随着人工智能的快速发展，大型语言模型（LLMs）在模仿人类水平的语言理解和推理方面展现出有前景的能力。这引发了将LLMs应用于医疗保健各个方面的巨大兴趣，从医学教育到临床决策支持。然而，医学涉及多方面的数据模态和细微的推理技能，为LLMs的整合带来了挑战。本文对LLMs在医学中的应用和影响进行了全面综述。它首先考察了通用和专用LLMs的基本应用，展示了它们在知识检索、研究支持、临床工作流程自动化和诊断辅助方面的实用性。认识到医学固有的多模态性，综述接着聚焦于多模态LLMs，研究它们处理如医学影像和电子健康记录（EHRs）等不同数据类型的能力，以增强诊断准确性。为了解决LLMs在个性化以及复杂临床推理方面的局限性，本文探讨了LLM驱动的医疗保健自主代理的兴起发展。此外，它总结了评估LLMs在医疗环境中可靠性和安全性的评估方法。总的来说，这篇综述对LLMs在现代医学中的变革潜力进行了广泛的分析。它还强调了在将这些模型有效整合到临床实践中之前，持续优化和道德监督的关键需求。访问https://github.com/mingze-yuan/Awesome-LLM-Healthcare以获取包含最新论文的GitHub存储库。

一句话总结：

本文全面分析了大型语言模型在医学领域的应用潜力及其对临床实践的影响，强调了持续优化和道德监督的必要性。

CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL

发布时间：2023-11-02

作者：Mayank Kothyari, Dhruva Dhingra, Sunita Sarawagi, Soumen Chakrabarti

中文摘要：

现有的文本到SQL生成器需要将整个模式与用户文本一起编码。这对于拥有数万列的大型数据库来说既昂贵又不切实际。标准的密集检索技术在大型结构化数据库的模式子集上是不够的，因为在检索的正确语义要求中，我们需要对模式元素集合进行排序，而不是对单个元素进行排序。作为回应，我们提出了一种两阶段检索过程中的有效覆盖过程。首先，我们指导一个大型语言模型（LLM）生成一个最小的数据库模式，该模式被认为足以回答查询。我们使用生成的模式通过组合多个密集检索的结果来检索实际模式的子集。令人惊讶的是，通常被认为是有害的（hallucination）实际上作为一种桥梁机制非常有用。由于没有针对大型数据库模式子集的现有基准，我们引入了三个基准。两个半合成数据集分别从两个知名数据集SPIDER和BIRD的模式并集中生成，分别产生了4502和798个模式元素。一个名为SocialDB的现实基准来源于一个包含17844个模式元素的实际大型数据仓库。我们表明，我们的方法1在召回率方面显著高于基于检索的SOTA增强方法。

一句话总结：

本文提出了一种基于大型语言模型和密集检索的文本到SQL生成方法，通过生成最小数据库模式来提高检索效率，并在大型数据库模式子集上实现了比现有方法更高的召回率。

Crosslingual Retrieval Augmented In-context Learning for Bangla

发布时间：2023-11-01

作者：Xiaoqian Li, Ercong Nie, Sheng Liang

中文摘要：

本文提出了一种开创性的方法，利用跨语言检索增强的上下文学习来解决大型语言模型（LLMs）在处理低资源语言（如孟加拉语）时性能有限的问题。通过从高资源语言中策略性地获取语义相似的提示，我们使多语言预训练语言模型（MPLMs），特别是生成模型BLOOMZ，能够成功提升在孟加拉语任务上的性能。我们的广泛评估表明，跨语言检索增强的提示为MPLMs带来了持续的改进，超越了零样本性能。

一句话总结：

本文提出了一种利用跨语言检索增强的上下文学习方法，显著提升了多语言预训练语言模型在低资源语言任务上的性能。

SAGE: Smart home Agent with Grounded Execution

发布时间：2023-11-01

作者：Dmitriy Rivkin, Francois Hogan, Amal Feriani, Abhisek Konar, Adam Sigal, Steve Liu, Greg Dudek

中文摘要：

SAGE（基于地面执行的智能家居代理）通过使用一种用户请求触发由大型语言模型（LLMs）控制的离散动作序列的方案，克服了LLMs缺乏关于用户及其家庭的具体知识等局限性。SAGE通过动态构建的LLM提示树来控制这个过程，帮助其决定下一步采取哪个动作，判断动作是否成功，以及何时终止过程。SAGE的动作集增强了LLMs的能力，以支持智能家居助手的一些最关键需求，包括灵活且可扩展的用户偏好管理（例如，“我的球队今晚比赛吗？”）、通过API读取访问任何智能设备的全部功能而无需特定于设备的代码（例如，“降低我的烘干机的屏幕亮度”）、持续监控设备状态（例如，“当我打开冰箱时提醒我扔掉牛奶”）、仅使用房间照片进行自然设备引用（例如，“打开梳妆台上的灯”），等等。我们引入了一个包含50个新且具有挑战性的智能家居任务的基准，其中SAGE实现了75%的成功率，显著优于现有的LLM启用基线（30%的成功率）。

一句话总结：

SAGE通过结合大型语言模型和动态提示树，显著提升了智能家居助手在处理复杂用户请求方面的成功率。