Retrieval Augmented Generation - 2023年05月

Knowledge Graph-Augmented Language Models for Knowledge-Grounded Dialogue Generation

发布时间：2023-05-30

作者：Minki Kang, Jin Myung Kwak, Jinheon Baek, Sung Ju Hwang

中文摘要：

语言模型在对话生成任务上取得了令人印象深刻的性能。然而，当生成需要事实知识的对话响应时，由于缺乏检索、编码和反映生成响应中知识机制的机制，它们远非完美。一些基于知识图谱（KG）的知识增强对话生成方法通过利用知识图谱中的事实来解决这个问题；然而，它们并不能保证模型利用了知识图谱中的相关知识片段。为了克服这一局限性，我们提出了SUbgraph Retrieval-augmented GEneration（SURGE）框架，这是一种用于生成与上下文相关和基于知识图谱的对话的框架。具体来说，我们的SURGE框架首先从知识图谱中检索相关子图，然后通过扰动基于检索到的子图的条件词嵌入来确保事实之间的一致性。然后，我们利用对比学习来确保生成的文本与检索到的子图具有高度相似性。我们在OpendialKG和KOMODIS数据集上验证了我们的SURGE框架，结果表明它生成了高质量、忠实反映知识图谱中知识的对话。

一句话总结：

我们提出的SURGE框架通过检索知识图谱中的相关子图并利用对比学习，有效提升了基于知识图谱的对话生成质量。

Towards Efficient Deep Hashing Retrieval: Condensing Your Data via Feature-Embedding Matching

发布时间：2023-05-29

作者：Tao Feng, Jie Zhang, Peizheng Wang, Zhijie Wang

中文摘要：

随着更复杂模型和大规模数据集的采用，训练最先进的深度哈希检索模型的成本有所增加。数据集蒸馏（Dataset Distillation，DD）或数据集浓缩（Dataset Condensation，DC）关注于生成较小的合成数据集，同时保留原始信息。然而，现有的DD方法在保持准确性和效率之间的平衡方面面临挑战。而且，最先进的数据集蒸馏方法无法扩展到所有深度哈希检索方法。在本文中，我们提出了一种高效的浓缩框架，通过匹配合成集和真实集之间的特征嵌入来解决这些限制。此外，我们通过结合早期增强模型和多形态策略来增强特征的多样性。广泛的实验提供了强有力的证据，表明与最先进的基线方法相比，我们的方法在性能和效率方面都表现出显著的优势。

一句话总结：

本文提出了一种高效的深度哈希检索模型数据集浓缩框架，通过特征嵌入匹配和增强模型策略，实现了在保持性能的同时提高效率。

Prompt-Guided Retrieval Augmentation for Non-Knowledge-Intensive Tasks

发布时间：2023-05-28

作者：Zhicheng Guo, Sijie Cheng, Yile Wang, Peng Li, Yang Liu

中文摘要：

检索增强方法越来越受到关注，通过利用外部资源中的有用信息来支持下游任务。最近的研究主要集中于探索检索来解决知识密集型（KI）任务。然而，检索对于大多数非知识密集型（NKI）任务的潜力尚未得到充分挖掘。利用检索增强方法进行NKI任务存在两个主要挑战：1）对多样化相关性得分函数的需求；2）训练成本与任务性能之间的困境。为了解决这些挑战，我们提出了一种针对NKI任务的二阶段框架，命名为PGRA。在第一阶段，我们采用一个任务无关的检索器来构建一个共享的静态索引并高效地选择候选证据。在第二阶段，我们设计了一个提示引导的重排器，根据任务特定的相关性对读者重新排序最近的证据。实验结果表明，PGRA优于其他最先进的检索增强方法。我们的分析进一步研究了影响模型性能的因素，并证明了PGRA的通用性。代码可在https://github.com/THUNLP-MT/PGRA上获取。

一句话总结：

PGRA通过构建共享索引和设计提示引导的重排器，有效提升了非知识密集型任务的检索增强方法性能。

Augmentation-Adapted Retriever Improves Generalization of Language Models as Generic Plug-In

发布时间：2023-05-27

作者：Zichun Yu, Chenyan Xiong, Shi Yu, Zhiyuan Liu

中文摘要：

本文探讨了通用检索插件方案，该方案中的检索器旨在辅助那些事先未知或无法一起微调的目标语言模型（LMs）。为了为未见过的目标LM检索有用的文档，我们提出了增强适应检索器（AAR），它通过从已知源LM学习来获取LM的偏好。在MMLU和PopQA数据集上的实验表明，使用小型源LM训练的AAR能够显著提高从250M Flan-T5到175B InstructGPT的各种大型目标LM的零样本泛化能力。进一步的分析表明，不同LM的偏好存在重叠，使得使用单个源LM训练的AAR可以作为各种目标LM的通用插件。我们的代码已在https://github.com/OpenMatch/Augmentation-Adapted-Retriever上开源。

一句话总结：

本文提出了一种名为AAR的增强适应检索器，能够通过学习源LM的偏好来显著提高大型目标LM的零样本泛化能力，并可作为通用插件应用于不同目标LM。

Improving accuracy of GPT-3/4 results on biomedical data using a retrieval-augmented language model

发布时间：2023-05-26

作者：David Soong, Sriram Sridhar, Han Si, Jan-Samuel Wagner, Ana Caroline Costa Sá, Christina Y Yu, Kubra Karagoz, Meijian Guan, Hisham Hamadeh, Brandon W Higgs

中文摘要：

大型语言模型（LLMs）在自然语言处理（NLP）领域取得了显著进展。广泛的语料库可以捕捉到多样化的模式，但可能会引入无关信息，而聚焦语料库通过减少误导性信息来提高可靠性。在聚焦语料库上训练LLMs面临着计算挑战。一种替代方法是使用在特定领域测试过的检索增强（RetA）方法。为了评估LLMs的性能，OpenAI的GPT-3、GPT-4、必应的Prometheus以及一个定制的RetA模型在19个关于弥漫性大B细胞淋巴瘤（DLBCL）疾病的问题上进行了比较。八位独立的审稿人根据准确性、相关性和可读性（评分1-3）评估了回答。 RetA模型在准确性（12/19获得3分，总分47）和相关性（13/19，50）方面表现最佳，其次是GPT-4（8/19，43；11/19，49）。GPT-4获得了最高的可读性评分（17/19，55），其次是GPT-3（15/19，53）和RetA模型（11/19，47）。Prometheus在准确性（34）、相关性（32）和可读性（38）方面表现不佳。与RetA模型和Prometheus相比，GPT-3.5和GPT-4在所有19个回答中都出现了更多的幻觉。幻觉主要与不存在的参考文献或编造的疗效数据有关。这些发现表明，结合特定领域语料库的RetA模型可能在特定领域的准确性和相关性方面优于通用LLMs。然而，这项评估仅限于特定问题和指标，可能无法捕捉到语义搜索和其他NLP任务中的挑战。未来的研究将探索不同的LLM架构、RetA方法和评估方法，以更全面地评估其优势和局限性。

一句话总结：

RetA模型结合特定领域语料库在特定领域的准确性和相关性方面可能优于通用LLMs。

Too Few Bug Reports? Exploring Data Augmentation for Improved Changeset-based Bug Localization

发布时间：2023-05-25

作者：Agnieszka Ciborowska, Kostadin Damevski

中文摘要：

本文研究了使用合成训练数据对基于transformer（例如BERT、RoBERTa）的深度学习模型在更复杂的缺陷定位任务中的影响。由于深度学习模型在软件工程应用中展现出巨大潜力，但通常受到训练数据不足的限制，尤其是在需要项目特定数据的任务中，如缺陷定位，该任务旨在推荐代码以修复新提交的缺陷报告。对于缺陷定位的深度学习模型，需要大量的已修复缺陷报告作为训练集，即使在流行的和积极开发的软件项目中，这些报告的数量也是有限的。在本文中，我们考察了使用合成训练数据对执行更复杂缺陷定位变体的基于transformer的深度学习模型的影响，该变体的目标是检索每个缺陷报告的缺陷诱导更改集。为了生成高质量的合成数据，我们提出了新的数据增强算子，这些算子作用于缺陷报告的不同组成部分。我们还描述了一种数据平衡策略，旨在创建一个增强的缺陷报告语料库，更好地反映整个源代码库，因为现有的用作训练数据的缺陷报告通常只引用代码库的一小部分。

一句话总结：

本文提出了一种基于合成数据增强和平衡策略的方法，以提高基于transformer的深度学习模型在缺陷定位任务中的性能。

Learning Answer Generation using Supervision from Automatic Question Answering Evaluators

发布时间：2023-05-24

作者：Matteo Gabburo, Siddhant Garg, Rik Koncel-Kedziorski, Alessandro Moschitti

中文摘要：

最近的研究表明，基于答案句子选择（AS2）的句子级抽取式问答（extractive QA）在性能上被基于生成式问答（GenQA）的模型所超越，后者通过使用AS2模型按排名生成的top-k答案句子来生成答案（类似于检索增强生成式风格）。在本文中，我们提出了一种新的GenQA训练范式，该范式利用来自自动问答评估模型（GAVA）的监督。具体来说，我们提出了三种将知识从这些问答评估模型转移到GenQA模型中的策略：（i）通过使用GAVA标记的由GenQA模型生成的答案来增强训练数据（无论是静态的，在训练之前，还是（ii）动态的，在每个训练周期）；以及（iii）在GenQA模型的学习过程中使用GAVA分数来加权生成器损失。我们在两个学术和一个工业数据集上评估了我们提出的方法，与之前的最先进技术相比，在回答准确性方面取得了显著的提升。

一句话总结：

本文提出了一种利用自动问答评估模型监督的GenQA训练范式，显著提升了问答系统的回答准确性。

Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy

发布时间：2023-05-24

作者：Zhihong Shao, Yeyun Gong, Yelong Shen, Minlie Huang, Nan Duan, Weizhu Chen

中文摘要：

大型语言模型是强大的文本处理和推理工具，但它们仍然受到包括过时知识和幻觉在内的限制，这需要将它们与外界连接起来。检索增强的大型语言模型因将模型生成建立在外部知识基础上而受到广泛关注。然而，检索器在捕捉相关性方面存在困难，尤其是在信息需求复杂的查询中。最近的研究提出了通过让大型语言模型积极参与检索来改进相关性建模，即通过生成来改进检索。在本文中，我们展示了一种名为Iter-RetGen的方法，该方法以迭代的方式协同检索和生成，从而实现了强大的性能。模型输出显示完成任务可能需要的内容，从而为检索更多相关知识提供了信息性背景，这反过来又帮助生成更好的输出，从而在下一轮迭代中产生更好的输出。与在生成输出时将检索与生成交织在一起的方法相比，Iter-RetGen将所有检索到的知识作为一个整体处理，并在很大程度上保留了生成中的灵活性，而没有结构性的约束。我们在多跳问答、事实验证和常识推理上评估了Iter-RetGen，并表明它可以灵活地利用参数知识和非参数知识，在检索和生成开销较少的情况下，优于或与最先进的检索增强基线相当。我们可以通过生成增强的检索适应来进一步提高性能。

一句话总结：

Iter-RetGen通过迭代协同检索和生成，有效提升了大型语言模型在知识检索和生成任务中的性能。

KNN-LM Does Not Improve Open-ended Text Generation

发布时间：2023-05-24

作者：Shufan Wang, Yixiao Song, Andrew Drozdov, Aparna Garimella, Varun Manjunatha, Mohit Iyyer

中文摘要：

本文研究了基于插值检索增强的语言模型（LM）的生成质量。这些方法，以KNN-LM为代表，通过将LM预测的下一个词的分布与给定前缀的最相关检索形成的分布进行插值。虽然KNN-LM和相关方法在困惑度降低方面取得了令人印象深刻的成果，但我们发现，它们在开放式生成质量方面的提升并不显著，这一点通过自动评估指标（例如MAUVE）和人工评估都可以得到证实。进一步研究发现，与基线Transformer LM相比，使用检索分布进行插值实际上增加了WikiText-103测试集中大多数标记的困惑度，尽管由于插值后困惑度显著降低的标记数量减少，整体困惑度较低。然而，在推理时解码长序列时，由于大多数标记的预测略微变差，这种对较小标记子集的显著改进被抵消。此外，我们还发现，随着生成序列变长，检索分布的熵增长速度比基线LM的熵增长速度快，这表明当使用模型生成的文本作为查询时（即受到暴露偏差的影响），检索的可靠性较低。我们希望我们的分析能够激发未来对改进解码算法和检索增强语言模型的插值策略的研究。

一句话总结：

本文揭示了基于插值检索增强的语言模型在生成质量上的局限性，并指出改进解码算法和插值策略的必要性。

Training on Thin Air: Improve Image Classification with Generated Data

发布时间：2023-05-24

作者：Yongchao Zhou, Hshmat Sahak, Jimmy Ba

中文摘要：

获取高质量数据以训练判别模型是构建有效预测系统的一个关键但具有挑战性的方面。在本文中，我们提出了扩散逆算法（Diffusion Inversion），这是一种简单而有效的方法，它利用预训练的生成模型Stable Diffusion来生成用于图像分类的多样化、高质量训练数据。我们的方法通过将图像逆变换到Stable Diffusion的潜在空间来捕捉原始数据分布并确保数据覆盖，通过在噪声版本的这些向量上对生成模型进行条件化来生成多样化的新训练图像。我们确定了三个关键组件，使得我们生成的图像能够成功替代原始数据集，从而在样本复杂性上提高了2-3倍，在采样时间上减少了6.5倍。此外，我们的方法在各种数据集上始终优于通用的基于提示的引导方法和KNN检索基线。此外，我们还证明了我们的方法与广泛使用的数据增强技术的兼容性，以及生成数据在支持各种神经网络架构和增强小样本学习方面的可靠性。

一句话总结：

本文提出的扩散逆算法通过利用预训练的生成模型Stable Diffusion生成高质量图像数据，显著提高了图像分类模型的性能。

Exploring Contrast Consistency of Open-Domain Question Answering Systems on Minimally Edited Questions

发布时间：2023-05-23

作者：Zhihan Zhang, Wenhao Yu, Zheng Ning, Mingxuan Ju, Meng Jiang

中文摘要：

对比一致性，即模型在存在扰动的情况下做出一致正确预测的能力，是自然语言处理（NLP）中的一个重要方面。尽管在情感分析和阅读理解等任务中已经进行了研究，但由于收集满足事实性要求的扰动问题困难，在开放域问答（OpenQA）中仍未得到探索。在这项工作中，我们收集了最小编辑的问句作为具有挑战性的对比集来评估OpenQA模型。我们的收集方法结合了人工标注和大型语言模型生成。我们发现，广泛使用的密集段落检索器（DPR）在我们的对比集上表现不佳，尽管它在训练集上拟合良好，并在标准测试集上表现出竞争力。为了解决这个问题，我们引入了一种简单有效的查询端对比损失，并辅以数据增强来改进DPR的训练。我们在对比集上的实验表明，DPR的对比一致性得到了提高，而没有牺牲其在标准测试集上的准确性。

一句话总结：

本研究通过引入数据增强和查询端对比损失，提高了开放域问答模型DPR的对比一致性，使其在标准测试集上保持准确性。

Query Rewriting for Retrieval-Augmented Large Language Models

发布时间：2023-05-23

作者：Xinbei Ma, Yeyun Gong, Pengcheng He, Hai Zhao, Nan Duan

中文摘要：

大型语言模型（LLMs）在检索-阅读管道中扮演着强大且黑盒的读者角色，在知识密集型任务中取得了显著的进步。本研究从查询重写的角度，提出了一种新的框架——Rewrite-Retrieve-Read，代替了之前的检索-阅读框架，用于检索增强型LLMs。与先前的研究不同，这些研究要么专注于调整检索器，要么专注于调整阅读器，我们的方法关注于搜索查询本身的调整，因为在检索中，输入文本与所需知识之间不可避免地存在差距。我们首先提示LLM生成查询，然后使用网络搜索引擎检索上下文。此外，为了更好地将查询与冻结模块对齐，我们为我们的管道提出了一种可训练的方案。采用一个小型语言模型作为可训练的重写器，以适应黑盒LLM阅读器。重写器通过强化学习使用LLM阅读器的反馈进行训练。评估在下游任务上进行，包括开放域问答和多项选择题问答。实验结果表明，性能得到了一致的提升，这表明我们的框架已被证明是有效且可扩展的，并为检索增强型LLMs带来了一种新的框架。

一句话总结：

本研究提出了一种基于查询重写的Rewrite-Retrieve-Read框架，有效提升了检索增强型LLMs的性能。

FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

发布时间：2023-05-23

作者：Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-tau Yih, Pang Wei Koh, Mohit Iyyer, Luke Zettlemoyer, Hannaneh Hajishirzi

中文摘要：

评估大型语言模型（LMs）生成的长文本的真实性是一个复杂的问题，因为（1）生成的文本通常包含支持和不支持的信息混合，这使得对质量的二元判断不足；（2）人工评估既耗时又昂贵。在本文中，我们介绍了FACTSCORE，这是一种新的评估方法，它将生成文本分解为一系列原子事实，并计算由可靠知识源支持的原子事实的百分比。我们进行了一项广泛的人工评估，以获得由几个最先进的商业LM（InstructGPT、ChatGPT和检索增强的PerplexityAI）生成的个人传记的FACTSCORE，并报告了新的分析，证明了这种细粒度评分的必要性（例如，ChatGPT仅达到58%）。由于人工评估成本高昂，我们还介绍了一个自动模型，该模型使用检索和强大的语言模型来估计FACTSCORE，错误率低于2%。最后，我们使用这个自动指标来评估一组13个最新LM生成的6,500个文本，如果由人工评估，将花费26,000美元，并得出各种发现：GPT-4和ChatGPT比公共模型更真实，Vicuna和Alpaca是其中一些最好的公共模型。FACTSCORE可以通过pip install factscore进行公共使用。

一句话总结：

本文提出了一种名为FACTSCORE的新评估方法，用于评估大型语言模型生成文本的真实性，并通过自动化模型降低了人工评估的成本。

Graph Meets LLM: A Novel Approach to Collaborative Filtering for Robust Conversational Understanding

发布时间：2023-05-23

作者：Zheng Chen, Ziyan Jiang, Fan Yang, Eunah Cho, Xing Fan, Xiaojiang Huang, Yanbin Lu, Aram Galstyan

中文摘要：

对话式人工智能系统（如Alexa）需要理解有缺陷的查询以确保稳健的对话理解和减少用户摩擦。这些有缺陷的查询通常源于用户的模糊性、错误或自动语音识别（ASR）和自然语言理解（NLU）中的错误。个性化查询重写是一种关注通过考虑用户的个人行为和偏好来减少查询缺陷的方法。它通常依赖于与对话人工智能成功交互的历史索引。然而，用户历史中未见的交互为个性化查询重写带来了额外的挑战。本文提出了我们的“协同查询重写”方法，该方法专门针对重写用户历史中未观察到的新的用户交互任务。这种方法构建了一个“用户反馈交互图”（User Feedback Interaction Graph，简称FIG），并利用多跳图遍历来丰富每个用户的索引，以覆盖未来的未见有缺陷的查询。这个丰富的用户索引被称为协同用户索引，并包含数百个额外的条目。为了抵消索引扩大的精度下降，我们在L1检索模型中添加了额外的Transformer层，并将基于图和护栏特征纳入L2排名模型。由于用户索引可以预先计算，我们进一步研究了利用大型语言模型（Large Language Model，简称LLM）来增强视频/音乐领域的用户-实体链接预测的FIG。具体来说，本文研究了Dolly-V2 7B模型。我们发现，通过微调的Dolly-V2生成增强的用户索引显著提高了未来未见用户交互的覆盖率，从而与仅图遍历的方法相比，在未见查询上提升了查询重写（Query Rewriting，简称QR）的性能。

一句话总结：

本文提出了一种基于协同查询重写的方法，通过构建用户反馈交互图和利用大型语言模型，有效提升了对话式人工智能系统对未见有缺陷查询的理解能力。

RaSa: Relation and Sensitivity Aware Representation Learning for Text-based Person Search

发布时间：2023-05-23

作者：Yang Bai, Min Cao, Daming Gao, Ziqiang Cao, Chen Chen, Zhenfeng Fan, Liqiang Nie, Min Zhang

中文摘要：

基于文本的人脸搜索旨在根据文本描述检索指定的人脸图像。解决这一挑战性任务的关键是学习强大的多模态表示。为此，我们提出了一种关系和敏感性感知的表示学习方法（RaSa），包括两个新颖的任务：关系感知学习（RA）和敏感性感知学习（SA）。一方面，现有方法在区分所有正对表示时没有区分，忽略了由弱正对引起的噪声问题，其中文本和配对图像存在噪声对应关系，从而导致过拟合学习。RA通过引入一种新的正关系检测任务（即学习区分强正对和弱正对）来降低过拟合风险。另一方面，在数据增强下学习不变表示（即对某些变换不敏感）是现有方法中提高表示鲁棒性的通用实践。除此之外，我们通过SA（即学习检测替换的单词）鼓励表示感知敏感变换，从而提高表示的鲁棒性。实验表明，RaSa在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上的Rank@1分别比现有最先进方法高出6.94%、4.45%和15.35%。代码可在以下链接获取：https://github.com/Flame-Chasers/RaSa。

一句话总结：

RaSa通过引入关系感知学习和敏感性感知学习，显著提高了基于文本的人脸搜索的准确性。

Knowledge-Retrieval Task-Oriented Dialog Systems with Semi-Supervision

发布时间：2023-05-22

作者：Yucheng Cai, Hong Liu, Zhijian Ou, Yi Huang, Junlan Feng

中文摘要：

大多数现有的面向任务型对话（TOD）系统通过跟踪对话状态中的槽位和值来查询数据库以获取相关知识来生成响应。在现实生活中的应用中，用户的表述更加嘈杂，因此更难准确跟踪对话状态和正确获取相关知识。最近，问答系统和基于文档的对话系统在检索增强方法上取得了进展，其中包含了一个知识检索器。受此启发，我们提出了一种基于检索的方法来增强面向任务型对话系统中的知识选择，该方法在现实生活中的对话中显著优于传统的数据库查询方法。此外，我们开发了基于潜在变量模型的半监督学习方法，它可以与知识检索器一起利用标记和无标记的对话数据。联合随机逼近（JSA）算法被用于半监督模型训练，整个系统被称为JSA-KRTOD。在来自中国移动定制服务的真实数据集MobileCS上进行了实验，结果表明JSA-KRTOD在仅标记和半监督设置下都取得了优异的性能。

一句话总结：

该研究提出了一种基于检索的面向任务型对话系统，通过半监督学习方法显著提升了知识选择和对话理解能力。

SIDAR: Synthetic Image Dataset for Alignment & Restoration

发布时间：2023-05-19

作者：Monika Kwiatkowski, Simon Matern, Olaf Hellwich

中文摘要：

图像配准和图像恢复是经典的计算机视觉任务。然而，目前缺乏足够数据来训练和评估端到端深度学习模型的数据库。获取图像配准的地面实况数据需要复杂的运动结构方法或光流系统，但这些系统通常无法提供足够的数据变异性，即通常提供大量的图像对应关系，而在底层图像序列中只引入很少的景观变化。替代方法利用现有图像数据上的随机透视扭曲。然而，这只能提供微不足道的扭曲，缺乏真实场景的复杂性和变异性。相反，我们提出的数据增强方法通过使用3D渲染来帮助克服数据稀缺的问题：图像被添加为纹理覆盖在一个平面上，然后向场景中添加不同的光照条件、阴影和遮挡。场景从多个视点进行渲染，生成与真实世界场景更一致的透视扭曲，其单应性更接近于相机投影的单应性，而不是随机化的单应性。对于每个场景，我们提供了一系列扭曲图像及其对应的遮挡掩码、单应性和地面实况标签。生成的数据集可以作为涉及图像配准和伪影去除等多种任务的训练和评估集，例如深度单应性估计、密集图像匹配、二维光束调整、修复、阴影去除、降噪、内容检索和背景减除。我们的数据生成流程是可定制的，可以应用于任何现有数据集，作为数据增强以进一步提高任何现有方法的特征学习。

一句话总结：

本文提出了一种基于3D渲染的数据增强方法，通过生成更符合真实场景的图像配准数据，以提升图像配准和修复任务的深度学习模型性能。

ReGen: Zero-Shot Text Classification via Training Data Generation with Progressive Dense Retrieval

发布时间：2023-05-18

作者：Yue Yu, Yuchen Zhuang, Rongzhi Zhang, Yu Meng, Jiaming Shen, Chao Zhang

中文摘要：

随着大型语言模型（LLMs）的发展，零样本学习在多种自然语言处理（NLP）任务中引起了广泛关注。与先前使用亿级自然语言生成（NLG）模型生成训练数据的研究不同，我们提出了一种检索增强框架，从通用领域的未标记语料库中创建训练数据。为了实现这一点，我们首先进行对比预训练，学习一个无监督的密集检索器，使用类描述性词汇化器提取最相关的文档。然后，我们进一步提出两种简单策略，即带有演示的词汇化器增强和自一致性引导过滤，以提高数据集的主题覆盖率，同时去除噪声示例。在九个数据集上的实验表明，REGEN相对于最强的基线提高了4.3%，与使用大型NLG模型的基线相比，节省了大约70%的时间。此外，REGEN可以自然地与最近提出的大型语言模型集成，以提升性能。

一句话总结：

REGEN通过检索增强框架和词汇化器增强策略，从通用领域语料库中高效生成训练数据，显著提升了零样本学习在NLP任务中的性能。

MALM: Mask Augmentation based Local Matching for Food-Recipe Retrieval

发布时间：2023-05-18

作者：Bhanu Prakash Voutharoja, Peng Wang, Lei Wang, Vivienne Guan

中文摘要：

图像到菜谱检索是一个具有重大实际价值的视觉到语言任务，其挑战在于长菜谱中的超高冗余以及食品组合和食品外观的巨大变化。解决这一任务的一个实际想法是学习一个共享特征嵌入空间，在这个空间中，食品图像与其配对的菜谱相比其他菜谱对齐得更好。然而，这种监督全局匹配容易导致监督崩溃，即只能识别出区分训练对所必需的部分信息，而其他可能有助于泛化的信息可能会丢失。为了缓解这个问题，我们提出了一种基于掩码增强的局部匹配网络（MALM），其中图像-文本匹配模块和掩码自蒸馏模块相互促进，以学习可泛化的跨模态表示。一方面，我们执行图像和文本的标记表示之间的局部匹配，以显式地定位细粒度的跨模态对应关系。在这个过程中，我们涉及掩码图像块的表达式以减轻局部匹配导致的过拟合，尤其是在某些食品项目代表性不足时。另一方面，通过自蒸馏预测掩码块隐藏表示有助于学习通用的图像表示，这种表示预期有更好的泛化能力。模型的多元任务特性使得掩码块的表达式能够感知文本，从而促进丢失信息的重建。在Recipe1M数据集上的实验结果表明，我们的方法可以明显优于最先进（SOTA）的方法。我们的代码将在https://github.com/MyFoodChoice/MALM_Mask_Augmentation_based_Local_Matching-_for-_Food_Recipe_Retrieval上提供。

一句话总结：

提出了一种基于掩码增强的局部匹配网络，以解决图像到菜谱检索中的超冗余和变异性问题，显著提升了检索性能。

Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization

发布时间：2023-05-18

作者：Tong Ye, Lingfei Wu, Tengfei Ma, Xuhong Zhang, Yangkai Du, Peiyu Liu, Shouling Ji, Wenhai Wang

中文摘要：

本文旨在通过源代码摘要自动生成描述程序功能的人类可读文本。尽管神经语言模型在此领域取得了显著的性能，但它们受到无法访问外部知识的限制。为了解决这一限制，一种新兴的趋势是通过检索方法将神经模型与外部知识相结合。先前的方法依赖于编码器侧的句子级检索范式。然而，这种范式是粗粒度的、充满噪声的，并且不能直接利用解码器侧检索到的优质摘要标记。在本文中，我们提出了一种在解码器侧而不是编码器侧的细粒度标记级检索增强机制（Tram），以增强神经模型性能并生成更多低频标记的摘要。此外，为了克服在捕获上下文代码语义中标记级检索的挑战，我们还提出将代码语义整合到单个摘要标记中。广泛的实验和人工评估结果表明，我们的标记级检索增强方法显著提高了性能，并且更具可解释性。

一句话总结：

本文提出了一种基于标记级检索的源代码摘要方法，通过整合代码语义和外部知识，显著提升了神经模型的性能和可解释性。

RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs

发布时间：2023-05-15

作者：Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon

中文摘要：

尽管语言模型取得了前所未有的成功，但即使是最大的语言模型也会犯错误。与人类通过反馈学习和改进的方式类似，先前的研究提出了为语言模型提供自然语言反馈以指导其修复输出的方法。由于人类生成的评论获取成本高昂，研究人员设计了学习型评论生成器来代替人类评论者，并假设可以训练下游模型来利用生成的反馈。然而，这种方法不适用于黑盒或有限访问模型，如ChatGPT，因为它们无法进行微调。此外，在大型通用语言代理的时代，微调既不计算高效也不空间高效，因为它会导致网络出现多个副本。在这项工作中，我们引入了RL4F（用于反馈的强化学习），这是一个多智能体协作框架，其中评论生成器被训练以最大化GPT-3（一个比其大200多倍的固定模型）的最终任务性能。RL4F生成有助于GPT-3修订其输出的评论。我们研究了三个用于行动规划、摘要和字母排序的数据集，并显示与其他学习型、检索增强型或提示型评论生成器相比，在多个文本相似性指标上相对提高了多达10%。

一句话总结：

本研究提出了一种基于强化学习的多智能体框架，用于训练语言模型生成反馈，从而显著提高其输出质量。

Synergistic Interplay between Search and Large Language Models for Information Retrieval

发布时间：2023-05-12

作者：Jiazhan Feng, Chongyang Tao, Xiubo Geng, Tao Shen, Can Xu, Guodong Long, Dongyan Zhao, Daxin Jiang

中文摘要：

信息检索（IR）在从大量数据中定位相关资源方面发挥着至关重要的作用，其应用已从传统的知识库发展到现代的检索模型（RMs）。大型语言模型（LLMs）的出现通过使用户能够以自然语言与搜索系统交互，进一步革新了信息检索领域。在本文中，我们探讨了LLMs和RMs的优缺点，强调了它们在理解用户提出的查询和检索最新信息方面的各自优势。为了利用这两种范例的优点同时克服它们的局限性，我们提出了InteR，一个新颖的框架，通过RMs和LLMs之间的协同作用促进信息精炼。InteR允许RMs使用LLM生成的知识集合扩展查询中的知识，并使LLMs能够使用检索到的文档来增强提示的制定。这种迭代精炼过程增强了RMs和LLMs的输入，导致更准确的检索。在涉及网络搜索和低资源检索任务的大规模检索基准测试中，InteR与最先进的方法相比，即使在那些使用相关性判断的方法中，也实现了整体优越的无监督检索性能。源代码可在https://github.com/Cyril-JZ/InteR获取。

一句话总结：

InteR通过结合检索模型和大型语言模型的优势，实现了一种新颖的信息检索框架，显著提升了检索的准确性。

Learning the Visualness of Text Using Large Vision-Language Models

发布时间：2023-05-11

作者：Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova

中文摘要：

视觉文本能在人的脑海中唤起一幅图像，而非视觉文本则不能。一种自动检测文本视觉性的方法将使文本到图像的检索和生成模型能够通过相关图像来增强文本。这对于长文本尤其具有挑战性，因为文本到图像的生成和检索模型通常是为那些旨在具有明确视觉性的文本而触发的，而长文本可能包含许多非视觉句子。为此，我们收集了一个包含3,620个英语句子及其由多个人工标注者提供的视觉性评分的数据集。我们还提出了一种微调策略，通过修改模型的对齐学习目标，将识别为非视觉的文本映射到一个共同的NULL图像，同时将视觉文本与其文档中的对应图像相匹配，以适应大型视觉语言模型如CLIP。我们评估了所提出的方法在以下方面的能力：(i) 准确地分类视觉和非视觉文本，以及(ii) 关注在心理语言学研究中被识别为视觉的单词。实证评估表明，我们的方法在所提出任务上优于几种启发式和基线模型。此外，为了强调建模文本视觉性的重要性，我们对DALL-E等文本到图像生成系统进行了定性分析。项目网页：https://gaurav22verma.github.io/text-visualness/

一句话总结：

本研究提出了一种自动检测文本视觉性的方法，通过微调视觉语言模型来增强文本到图像的检索和生成，并在长文本处理上取得了优于现有方法的性能。

Active Retrieval Augmented Generation

发布时间：2023-05-11

作者：Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, Graham Neubig

中文摘要：

尽管大型语言模型（LMs）在理解和生成语言方面表现出惊人的能力，但它们倾向于产生幻觉并创建事实不准确的内容。通过从外部知识资源检索信息来增强LMs是一种有希望的解决方案。大多数现有的检索增强LMs采用检索和生成设置，仅基于输入检索信息一次。然而，在涉及生成长文本的更一般场景中，这种方法是有限的，因为在生成过程中持续收集信息是至关重要的。在这项工作中，我们提供了一个关于主动检索增强生成的通用视图，这些方法在生成过程中主动决定何时以及检索什么信息。我们提出了向前看主动检索增强生成（FLARE），这是一种通用方法，它迭代地使用对即将到来的句子的预测来预测未来的内容，然后将其用作查询以检索相关文档，如果句子包含低置信度标记，则重新生成该句子。我们在4个长格式知识密集型生成任务/数据集上全面测试了FLARE及其基线。FLARE在所有任务上都实现了优越或具有竞争力的性能，证明了我们方法的有效性。代码和数据集可在https://github.com/jzbjyb/FLARE获取。

一句话总结：

FLARE通过预测未来内容并检索相关文档来增强大型语言模型，从而提高其生成长文本的准确性和质量。

A Platform for the Biomedical Application of Large Language Models

发布时间：2023-05-10

作者：Sebastian Lobentanzer, Shaohong Feng, The BioChatter Consortium, Andreas Maier, Cankun Wang, Jan Baumbach, Nils Krehl, Qin Ma, Julio Saez-Rodriguez

中文摘要：

当前一代大型语言模型（LLMs）在最近几个月引起了巨大的兴趣，它们在提高可访问性和自动化方面具有巨大潜力，同时这也带来了重大挑战和误用的风险。为了便于在生物医学领域与LLMs进行交互，同时通过合理的限制来保护其功能，我们提出了一种专用、开源的框架：BioChatter。基于开源软件包，我们整合了围绕LLMs正在开发的许多功能，如知识集成/检索增强生成、模型链式操作和基准测试，从而形成了一个易于使用且包容性的框架，适用于生物医学的许多用例。我们注重稳健且用户友好的实现，包括部署隐私保护的本地区域开源LLMs的方法。我们通过两个多用途网络应用（https://chat.biocypher.org）展示了用例，并提供文档、支持和开放社区。

一句话总结：

BioChatter是一个开源框架，旨在促进生物医学领域与大型语言模型的交互，同时确保其功能的稳健性和安全性。

Augmenting Passage Representations with Query Generation for Enhanced Cross-Lingual Dense Retrieval

发布时间：2023-05-06

作者：Shengyao Zhuang, Linjun Shou, Guido Zuccon

中文摘要：

有效的跨语言密集检索方法依赖于多语言预训练语言模型（PLM），需要训练以涵盖相关性匹配任务和跨语言对齐任务。然而，用于训练的跨语言数据通常很少。在本文中，我们提出不使用更多的跨语言数据来训练，而是使用跨语言查询生成来增强除原始篇章语言以外的语言中的查询表示。这些增强的表示在推理时使用，以便表示可以编码跨不同目标语言的更多信息。跨语言查询生成器的训练不需要比密集检索器使用的额外训练数据。查询生成器的训练也是有效的，因为生成器的预训练任务（T5文本到文本训练）与微调任务（生成查询）非常相似。使用生成器不会增加推理时的查询延迟，并且可以与任何跨语言密集检索方法结合使用。在基准跨语言信息检索数据集上的实验结果表明，我们的方法可以提高现有跨语言密集检索方法的有效性。我们的方法及其所有生成的查询文件在https://github.com/ielab/xQG4xDR上公开提供。

一句话总结：

本文提出了一种基于跨语言查询生成的跨语言密集检索方法，通过增强不同语言中的查询表示来提高现有方法的检索效果。

Retrieval Augmented Chest X-Ray Report Generation using OpenAI GPT models

发布时间：2023-05-05

作者：Mercy Ranjit, Gopinath Ganapathy, Ranjit Manuel, Tanuja Ganu

中文摘要：

我们提出了一种名为检索增强生成（RAG）的方法，用于自动编写放射学报告。该方法利用对比预训练的视觉语言模型的多模态对齐嵌入，检索与输入放射学图像相关的候选放射学文本，并使用OpenAI text-davinci-003、gpt-3.5-turbo和gpt-4等通用领域生成模型，根据检索到的相关放射学文本生成报告。这种方法能够控制幻觉生成的内容，并利用这些生成模型的指令遵循能力，生成符合我们期望格式的报告内容。我们的方法在BERTScore达到0.2865（Δ+25.88%）和Semb score达到0.4026（Δ+6.31%）的指标下实现了更好的临床效果。该方法在多种临床环境中都具有广泛的相关性，因为它允许通过增加与该环境相关的内容来增强自动放射学报告生成过程，同时能够在报告生成过程中将用户意图和要求注入提示中，以调节生成报告的内容和格式，以适应该临床环境。

一句话总结：

提出了一种基于检索增强生成的自动放射学报告写作方法，通过结合视觉语言模型和通用生成模型，有效提升了报告生成的质量和临床指标。

Expository Text Generation: Imitate, Retrieve, Paraphrase

发布时间：2023-05-05

作者：Nishant Balepur, Jie Huang, Kevin Chen-Chuan Chang

中文摘要：

说明性文档对于向读者传达复杂信息至关重要。尽管它们非常有用，但手动撰写说明性文本是一个具有挑战性的过程，需要仔细的内容规划、从多个来源获取事实以及清晰地综合这些事实的能力。为了减轻这些负担，我们提出了说明性文本生成的任务，该任务通过智能搜索知识源来自动生成关于某个主题的准确且风格一致的说明性文本。我们通过开发IRP（信息检索增强模型）框架来解决我们的任务，该框架克服了检索增强模型的局限性，并迭代执行内容规划、事实检索和改写。通过在三个多样、新收集的数据集上的实验，我们表明IRP能够生成事实性和组织性的说明性文本，准确地向读者传达信息。

一句话总结：

本研究提出了一种名为IRP的框架，用于自动生成准确且风格一致的说明性文本，以减轻手动撰写说明性文本的负担。

SemEval-2023 Task 7: Multi-Evidence Natural Language Inference for Clinical Trial Data

发布时间：2023-05-04

作者：Maël Jullien, Marco Valentino, Hannah Frost, Paul O'Regan, Donal Landers, André Freitas

中文摘要：

本文描述了SemEval 2023任务7——多证据自然语言推理在临床试验数据中的应用（NLI4CT）的结果，该任务包括两个子任务：自然语言推理（NLI）任务和临床试验数据的证据选择任务。所提出的挑战需要多跳生物医学和数值推理，这对开发能够进行大规模医学证据解释和检索的系统具有重要意义，以提供基于证据的个性化护理。任务1，即蕴涵任务，共收到来自40位参与者的643份提交，任务2，即证据选择任务，共收到来自23位参与者的364份提交。这些任务具有挑战性，大多数提交的系统在蕴涵任务上未能显著优于多数类基线，我们在证据选择任务上的表现显著优于蕴涵任务。增加模型参数的数量会导致性能直接提高，这种效果远比生物医学预训练的影响显著。未来的工作可以探索大型模型在泛化和数值推理方面的局限性，并研究增强临床数据集的方法，以允许进行更严格的测试并促进微调。我们预计，该任务的语料库、模型和结果将对生物医学NLI和证据检索社区有用。该数据集、竞赛排行榜和网站均公开可用。

一句话总结：

本文介绍了SemEval 2023 NLI4CT任务的结果，探讨了多证据自然语言推理在临床试验数据中的应用，并分析了模型性能和未来研究方向。

Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory

发布时间：2023-05-03

作者：Xin Cheng, Di Luo, Xiuying Chen, Lemao Liu, Dongyan Zhao, Rui Yan

中文摘要：

利用直接访问人类编写的参考作为记忆，检索增强生成在广泛的文本生成任务中取得了显著进展。由于更好的记忆通常会促进更好的生成（我们将其定义为原始问题）。传统的记忆检索方法涉及选择与输入最相似的内存。然而，这种方法受限于从其中检索记忆的固定语料库的质量。在本文中，通过探索原始问题的对偶性：更好的生成也会促进更好的记忆，我们提出了一种新颖的框架selfmem，该框架通过迭代地使用检索增强生成器来创建一个无界的内存池，并使用内存选择器选择一个输出作为后续生成轮次的内存，来解决这一限制。这使得模型可以利用其自身的输出，称为自记忆，以改善生成。我们在两种生成范式下评估了selfmem在三个不同的文本生成任务上的有效性：神经机器翻译、抽象文本摘要和对话生成：微调的小模型和少样本LLM。我们的方法在JRC-Acquis、XSum（50.3 ROUGE-1）和BigPatent（62.9 ROUGE-1）的四个方向上实现了最先进的成果，证明了自记忆在增强检索增强生成模型中的潜力。此外，我们对selfmem框架中的每个组件进行了彻底的分析，以识别瓶颈并为未来的研究提供见解。

一句话总结：

selfmem框架通过迭代使用检索增强生成器创建无界内存池，显著提升了检索增强生成模型在文本生成任务中的性能。

Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts

发布时间：2023-05-03

作者：Arian Askari, Mohammad Aliannejadi, Evangelos Kanoulas, Suzan Verberne

中文摘要：

本研究探讨了生成式大型语言模型（LLMs）在为跨编码重排器生成训练数据方面的有用性，采用了一种新颖的方法：生成合成文档而非合成查询。我们引入了一个新的数据集，ChatGPT-RetrievalQA，并比较了在LLM生成的和人工生成的数据上微调的模型的有效性。使用生成式LLM生成的数据可以用于扩充训练数据，尤其是在标注数据量较小的领域。我们基于现有的数据集，人类ChatGPT比较语料库（HC3），该语料库包含人类响应和ChatGPT的答案的公共问题集合，构建了ChatGPT-RetrievalQA。我们在人类生成的或ChatGPT生成的数据上对一系列跨编码重排器进行了微调。我们在MS MARCO DEV、TREC DL'19和TREC DL'20上的评估表明，在ChatGPT响应上训练的跨编码重排模型在零样本重排方面比在人类响应上训练的模型具有统计学意义上的显著优势。在监督设置中，人工训练的重排器优于LLM训练的重排器。我们的新发现表明，生成式LLM在为神经检索模型生成训练数据方面具有很高的潜力。需要进一步研究以确定生成响应中事实错误信息的影响，并测试我们的发现与开源LLMs的泛化能力。我们发布了我们的数据、代码和跨编码检查点，以供未来工作使用。

一句话总结：

本研究发现，生成式大型语言模型在为神经检索模型生成训练数据方面具有潜力，尤其是在标注数据量较少的领域。

Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise

发布时间：2023-05-02

作者：Giwon Hong, Jeonghwan Kim, Junmo Kang, Sung-Hyon Myaeng, Joyce Jiyoung Whang

中文摘要：

大多数现有的检索增强语言模型（LMs）假设检索文档集中存在一种简单的二分法：查询相关和不相关。我们的工作调查了一个更具挑战性的场景，其中即使是“相关”的文档也可能包含误导性或不正确的信息，导致检索文档之间的冲突，从而对模型决策产生负面影响。我们观察到，现有的语言模型在微调和情境下的小样本学习场景中对冲突信息的出现都极为脆弱。我们提出了一种通过显式微调判别器或提示GPT-3.5以激发其判别能力的方法来处理检索文档之间的知识冲突。我们在开放域问答上的实证结果表明，这些方法显著增强了模型的鲁棒性。我们还提供了将微调判别器的决策纳入情境学习过程的研究发现，提出了一种利用两种不同学习方案优势的方法。与我们的发现同时，我们还提供了MacNoise，一个由机器生成、由冲突引起的数据集，以进一步鼓励这一方向的研究。

一句话总结：

本研究提出了一种处理检索文档中知识冲突的方法，通过微调判别器或提示GPT-3.5来增强语言模型的鲁棒性。

Huatuo-26M, a Large-scale Chinese Medical QA Dataset

发布时间：2023-05-02

作者：Jianquan Li, Xidong Wang, Xiangbo Wu, Zhiyi Zhang, Xiaolong Xu, Jie Fu, Prayag Tiwari, Xiang Wan, Benyou Wang

中文摘要：

本文发布了一个迄今为止最大的医疗问答（QA）数据集，包含2600万个问答对。我们在数据集上对许多现有的检索和生成方法进行了基准测试。实验结果表明，现有模型的表现远低于预期，并且即使在预训练语言模型时代，发布的数据集仍然具有挑战性。此外，我们还通过实验展示了所提出数据集在多个方面的益处：（i）以零样本方式训练其他QA数据集的模型；（ii）作为检索增强生成（RAG）的外部知识；（iii）通过将问答对作为预训练语料库在持续训练过程中改进现有的预训练语言模型。我们相信，这个数据集不仅将促进医学研究，还将便利患者和临床医生。请参阅\url{https://github.com/FreedomIntelligence/Huatuo-26M}。

一句话总结：

本文发布了一个包含2600万个问答对的大规模医疗问答数据集，旨在提升现有模型性能并促进医学研究和临床应用。