Retrieval Augmented Generation - 2022年12月

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

发布时间：2022-12-31

作者：Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang

中文摘要：

大多数现有的文本-视频检索方法都集中在视频视觉内容和文本查询句子之间的跨模态匹配上。然而，在现实场景中，在线视频通常伴随着相关的文本信息，如标题、标签，甚至字幕，这些信息可以被用来匹配文本查询。这一洞察激励我们提出了一种新的文本-视频检索方法，我们直接使用来自大规模预训练模型（例如CLIP和GPT-2）的知识进行零样本视频字幕生成。鉴于生成的字幕，一个自然的问题是：它们为文本-视频检索带来了哪些好处？为了回答这个问题，我们引入了Cap4Video，这是一个新的框架，它以三种方式利用字幕：i) 输入数据：视频-字幕对可以增强训练数据。ii) 中间特征交互：我们在视频和字幕之间执行跨模态特征交互，以产生增强的视频表示。iii) 输出分数：查询-字幕匹配分支可以补充原始查询-视频匹配分支，用于文本-视频检索。我们进行了全面的消融研究，以证明我们方法的有效性。在不进行任何后处理的情况下，Cap4Video在四个标准的文本-视频检索基准测试中实现了最先进的性能：MSR-VTT（51.4%）、VATEX（66.6%）、MSVD（51.8%）和DiDeMo（52.0%）。代码可在https://github.com/whwu95/Cap4Video上找到。

一句话总结：

Cap4Video通过利用视频字幕，显著提升了文本-视频检索的性能。

Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP

发布时间：2022-12-28

作者：Omar Khattab, Keshav Santhanam, Xiang Lisa Li, David Hall, Percy Liang, Christopher Potts, Matei Zaharia

中文摘要：

检索增强的上下文学习已成为利用冻结的语言模型（LM）和检索模型（RM）解决知识密集型任务的一种强大方法。现有工作将这些模型结合成简单的“检索后读取”管道，其中RM检索的段落被插入到LM提示中。为了开始充分实现冻结LM和RM的潜力，我们提出了Demonstrate-Search-Predict（DSP）框架，该框架依赖于在LM和RM之间通过复杂的管道传递自然语言文本。DSP可以表达高级程序，这些程序启动管道感知的演示，搜索相关段落，并生成基于事实的预测，系统地分解问题为LM和RM可以更可靠处理的小型转换。我们为开放域、多跳和对话环境中的问题回答编写了新的DSP程序，在早期评估中建立了新的上下文学习最先进成果，并分别相对于标准LM（GPT-3.5）、标准的“检索后读取”管道和同期自问管道实现了37-120%、8-39%和80-290%的相对增益。我们已在https://github.com/stanfordnlp/dsp上发布DSP。

一句话总结：

DSP框架通过在语言模型和检索模型之间传递自然语言文本，实现了高效的上下文学习，显著提升了知识密集型任务的处理能力。

Generation-Augmented Query Expansion For Code Retrieval

发布时间：2022-12-20

作者：Dong Li, Yelong Shen, Ruoming Jin, Yi Mao, Kuan Wang, Weizhu Chen

中文摘要：

预训练的语言模型在代码检索任务中取得了令人鼓舞的成功，这些任务中会提供一个自然语言文档查询来找到最相关的现有代码片段。然而，现有的模型仅关注通过将文档代码对嵌入到潜在空间中来优化文档代码对，而没有关联外部知识。在本文中，我们提出了一种生成增强的查询扩展框架。受人类检索过程的启发——在搜索之前先勾勒出答案，在这项工作中，我们利用强大的代码生成模型来促进代码检索任务。具体来说，我们证明了仅仅根据文档查询检索目标代码片段是不够的，增加文档查询与其生成对应物——来自代码生成模型的生成代码片段会更有帮助。据我们所知，这是首次尝试利用代码生成模型来增强代码检索任务。我们在CodeSearchNet基准测试上实现了新的最先进的结果，并显著超越了基线。

一句话总结：

本文提出了一种利用代码生成模型增强代码检索任务的新框架，显著提升了检索效果。

Empowering Sentence Encoders with Prompting and Label Retrieval for Zero-shot Text Classification

发布时间：2022-12-20

作者：Jimin Hong, Jungsoo Park, Daeyoung Kim, Seongjae Choi, Bokyung Son, Jaewook Kang

中文摘要：

通过对比预训练，句子编码器通常被优化以在嵌入空间中将语义相似的样本放置得更近。在这项工作中，我们关注其嵌入空间在零样本文本分类中的适应性潜力，因为语义不同的样本已经很好地分离。我们的框架RaLP（用于句子编码器的检索增强标签提示）使用句子编码器对提示标签候选进行编码，然后分配与输入文本嵌入具有最高相似度的标签。为了补偿其原始格式中可能描述性不佳的标签，RaLP从外部语料库检索与原始标签提示语义相似的句子，并将它们用作额外的伪标签提示。在零样本设置下，RaLP在各种封闭集分类和多项选择题数据集上实现了与大型基线相竞争或更强的性能。我们表明，检索组件在RaLP的成功中起着关键作用，并且其结果对词汇化变化具有鲁棒性。

一句话总结：

RaLP通过检索增强标签提示和利用句子编码器，在零样本文本分类任务中实现了与大型基线相竞争的性能。

Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model

发布时间：2022-12-18

作者：Parishad BehnamGhader, Santiago Miret, Siva Reddy

中文摘要：

本文评估了流行的检索增强语言模型（如kNN-LM、REALM、DPR + FiD、Contriever + ATLAS、Contriever + Flan-T5）在不同任务中检索到的语句推理能力。研究发现，检索器使用的简单相似度指标不足以检索到所有必要的推理语句。此外，即使提供了所需的语句，语言模型在推理能力上表现也不强。当与不完美的检索器结合时，语言模型的性能进一步下降，例如，使用Contriever检索5个语句时，Flan-T5的性能下降了28.6%。尽管更大的语言模型可以提高性能，但仍有很大的提升空间。进一步分析表明，多跳检索和阅读对于大型语言模型如GPT-3.5很有前景，但并不适用于其他语言模型如Flan-T5-xxl。

一句话总结：

本文评估了检索增强语言模型在推理任务中的性能，发现简单相似度指标不足以支持有效推理，且模型性能受限于检索器的质量。

AugTriever: Unsupervised Dense Retrieval by Scalable Data Augmentation

发布时间：2022-12-17

作者：Rui Meng, Ye Liu, Semih Yavuz, Divyansh Agarwal, Lifu Tu, Ning Yu, Jianguo Zhang, Meghana Bhat, Yingbo Zhou

中文摘要：

密集检索器在文本检索和开放域问答方面取得了显著进展，尽管大多数成就的实现都依赖于大量的人工监督。在本工作中，我们旨在通过提出两种创建伪查询-文档对并在无标注和可扩展的方式下训练密集检索模型的无监督方法来开发无监督方法：查询提取和迁移查询生成。前者通过从原始文档中选择显著跨度来生成伪查询。后者利用为其他NLP任务（例如，摘要）训练的生成模型来生成伪查询。广泛的实验表明，使用所提出的增强方法训练的模型可以与多个强大基线相当（或更好）。结合这些策略可以进一步提高性能，在BEIR和ODQA数据集上实现了无监督密集检索的最先进性能。

一句话总结：

本文提出了一种无监督的密集检索方法，通过查询提取和迁移查询生成技术，在无标注和可扩展的方式下训练模型，实现了在BEIR和ODQA数据集上的最先进性能。

Visually-augmented pretrained language models for NLP tasks without images

发布时间：2022-12-15

作者：Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Qinyu Zhang, Ji-Rong Wen

中文摘要：

尽管预训练语言模型（PLMs）通过仅文本的自监督训练表现出令人印象深刻的性能，但它们被发现缺乏视觉语义或常识。现有的解决方案通常依赖于显式的图像进行视觉知识增强（需要耗时的检索或生成），并且它们还对整个输入文本进行增强，而没有考虑在特定输入或任务中是否真正需要。为了解决这些问题，我们提出了一种新颖的视觉增强微调方法，该方法可以普遍应用于各种PLMs或NLP任务，即无需使用任何检索或生成的图像，称为VAWI。实验结果表明，我们的方法可以一致地提高BERT、RoBERTa、BART和T5在不同规模上的性能，并在十个任务上优于几个竞争基线。我们的代码和数据在\url{https://github.com/RUCAIBox/VAWI}上公开可用。

一句话总结：

提出了一种无需图像检索或生成的视觉增强微调方法（VAWI），显著提升了多种预训练语言模型在不同NLP任务上的性能。

DeepJoin: Joinable Table Discovery with Pre-trained Language Models

发布时间：2022-12-15

作者：Yuyang Dong, Chuan Xiao, Takuma Nozawa, Masafumi Enomoto, Masafumi Oyamada

中文摘要：

由于在数据分析任务中数据丰富化的有用性，可连接表发现已成为数据湖管理中的重要操作。现有方法针对等值连接，这是创建统一视图时组合表最常见的方式，或者语义连接，它容忍拼写错误和不同格式以提供更多连接结果。它们要么是精确解决方案，其运行时间与查询列和目标表存储库的大小成线性关系，要么是缺乏精确度的近似解决方案。在本文中，我们提出了Deepjoin，这是一种用于准确和高效可连接表发现的深度学习模型。我们的解决方案是一种基于嵌入的检索，它使用预训练语言模型（PLM），并设计为一个框架，同时服务于等值连接和语义连接。我们提出了一组上下文化选项，将列内容转换为文本序列。PLM读取序列，并微调以将列嵌入为向量，使得列在向量空间中彼此接近时预期可以连接。由于PLM的输出长度固定，后续搜索过程与列大小无关。使用最先进的近似最近邻搜索算法，搜索时间与存储库大小成对数关系。为了训练模型，我们设计了准备训练数据和数据增强的技术。在真实数据集上的实验表明，通过在语料库的小子集上训练，Deepjoin可以推广到大型数据集，并且其精度始终优于其他近似解决方案。当使用专家的标签进行评估时，Deepjoin在语义连接上甚至比精确解决方案更准确。此外，当配备GPU时，Deepjoin的速度比现有解决方案快两个数量级。

一句话总结：

Deepjoin是一种基于深度学习的可连接表发现模型，通过预训练语言模型和近似最近邻搜索算法，实现了对大型数据集的高精度和高效连接。

APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning

发布时间：2022-12-14

作者：Jiashuo Sun, Hang Zhang, Chen Lin, Xiangdong Su, Yeyun Gong, Jian Guo

中文摘要：

长文本数值推理在金融分析中旨在生成一个推理程序，以计算给定问题的正确答案。先前的工作遵循检索-生成框架，其中检索器从长文本文档中选择关键事实，生成器基于检索的事实生成推理程序。然而，它们对所有事实一视同仁，没有考虑有数字和无数字的事实的不同贡献。同时，在监督训练中忽略了程序一致性，导致训练精度和多样性降低。为了解决这些问题，我们提出了APOLLO来改进长文本数值推理框架。对于检索器，我们采用基于数字的负采样策略，使检索器对关键数值事实具有更强的区分性。对于生成器，我们设计基于一致性的强化学习和基于程序执行结果一致性的目标程序增强策略。在FinQA和ConvFinQA排行榜上的实验结果验证了我们提出方法的有效性，实现了新的最先进水平。

一句话总结：

本文提出了一种改进的长文本数值推理框架APOLLO，通过采用基于数字的负采样和一致性增强策略，显著提高了金融分析中的数值推理性能。

A Unified Knowledge Graph Augmentation Service for Boosting Domain-specific NLP Tasks

发布时间：2022-12-10

作者：Ruiqing Ding, Xiao Han, Leye Wang

中文摘要：

通过将预训练过程集中在特定领域的语料库上，一些特定领域的预训练语言模型（PLM）已经实现了最先进的结果。然而，设计一个统一的范式在PLM微调阶段注入领域知识的研究尚不充分。我们提出了KnowledgeDA，一个统一的领域语言模型开发服务，通过领域知识图谱来增强特定任务的训练过程。给定特定领域的任务文本输入，KnowledgeDA可以自动生成一个特定领域的语言模型，遵循以下三个步骤：（i）通过嵌入相似度方法在文本中定位领域知识实体；（ii）通过从知识图谱和训练数据的两个视角检索可替换的领域实体对来生成增强样本；（iii）通过基于置信度的评估选择高质量的增强样本进行微调。我们实现了KnowledgeDA的原型，用于学习医疗保健和软件开发两个领域的语言模型。在特定领域的文本分类和问答任务上的实验验证了KnowledgeDA的有效性和泛化能力。

一句话总结：

KnowledgeDA是一种通过领域知识图谱增强特定任务训练过程的统一领域语言模型开发服务。

REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory

发布时间：2022-12-10

作者：Ziniu Hu, Ahmet Iscen, Chen Sun, Zirui Wang, Kai-Wei Chang, Yizhou Sun, Cordelia Schmid, David A. Ross, Alireza Fathi

中文摘要：

本文提出了一种端到端检索增强视觉语言模型（REVEAL），该模型能够将世界知识编码到大规模记忆库中，并从中检索以回答知识密集型查询。REVEAL由四个关键组件组成：记忆库、编码器、检索器和生成器。大规模记忆库通过统一的编码器将多种来源的多模态世界知识（例如图像-文本对、问答对、知识图谱三元组等）进行编码。检索器在记忆库中找到最相关的知识条目，生成器将检索到的知识与输入查询融合以生成输出。我们方法的一个关键创新点在于记忆库、编码器、检索器和生成器都是在大规模数据集上预先训练的端到端模型。此外，我们的方法可以使用多种多样的多模态知识源，这已被证明能够带来显著的性能提升。我们展示了REVEAL在视觉问答和图像描述任务上达到了最先进的性能。

一句话总结：

本文提出的REVEAL模型通过大规模记忆库和端到端预训练，实现了在视觉问答和图像描述任务上的最先进性能。

GNN-SL: Sequence Labeling Based on Nearest Examples via GNN

发布时间：2022-12-05

作者：Shuhe Wang, Yuxian Meng, Rongbin Ouyang, Jiwei Li, Tianwei Zhang, Lingjuan Lyu, Guoyin Wang

中文摘要：

为了更好地处理序列标注（SL）任务中的长尾情况，本研究引入了图神经网络序列标注（GNN-SL）方法。该方法通过从整个训练集中检索相似标注示例来增强传统SL模型的输出。由于并非所有检索到的标注示例都对模型预测有益，我们构建了一个异构图，并利用图神经网络（GNNs）在检索到的标注示例和输入词序列之间传递信息。用于预测的增强节点聚合了来自邻居节点的信息。这种策略使模型能够直接获取相似标注示例，并提高了预测的整体质量。我们在三个典型的序列标注任务上进行了各种实验：命名实体识别（NER）、词性标注（POS）和中文分词（CWS），以展示我们GNN-SL的显著性能。值得注意的是，GNN-SL在CWS任务上实现了96.9%（+0.2）的SOTA结果（在PKU、CITYU、MSR和AS数据集上分别为98.3%（+0.4）、98.5%（+0.2）、96.9%（+0.2）），在NER和POS数据集上的结果与SOTA性能相当。

一句话总结：

本研究提出的GNN-SL方法通过引入图神经网络和相似标注示例，显著提升了序列标注任务的整体性能。