Retrieval Augmented Generation - 2022年11月

Retrieval-Augmented Multimodal Language Modeling

发布时间：2022-11-22

作者：Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih

中文摘要：

近年来，多模态模型如DALL-E和CM3在文本到图像和图像到文本的生成方面取得了显著的进展。然而，这些模型将所有学习到的知识（例如，埃菲尔铁塔的外观）存储在模型参数中，需要越来越大的模型和训练数据来捕捉更多的知识。为了以更可扩展和模块化的方式整合知识，我们提出了一种检索增强的多模态模型，该模型使基础多模态模型（生成器）能够参考检索器从外部内存（例如，网络上的文档）检索到的相关文本和图像。具体来说，对于检索器，我们使用预训练的CLIP，对于生成器，我们在LAION数据集上训练了一个CM3 Transformer。我们的模型，命名为检索增强CM3（RA-CM3），是第一个能够检索和生成文本和图像的多模态模型。我们表明，RA-CM3在图像和标题生成任务上（在MS-COCO上12 FID和17 CIDEr的改进）显著优于基线多模态模型如DALL-E和CM3，同时训练所需的计算量要小得多（<30%的DALL-E）。此外，我们还表明RA-CM3展现出新颖的能力，如忠实于图像的生成和多模态的情境学习（例如，从演示中生成图像）。

一句话总结：

提出了一种名为RA-CM3的检索增强多模态模型，能够高效地检索和生成文本与图像，显著优于现有模型。

Contrastive Masked Autoencoders for Self-Supervised Video Hashing

发布时间：2022-11-21

作者：Yuting Wang, Jinpeng Wang, Bin Chen, Ziyun Zeng, Shutao Xia

中文摘要：

本文提出了一种名为ConMH的简单而有效的单阶段自监督视频哈希（SSVH）方法，该方法在单个阶段中结合了视频语义信息和视频相似性关系理解。为了更好地进行哈希学习，我们采用编码器-解码器结构从视频的时间掩码帧中重建视频。特别是，我们发现较高的掩码比例有助于视频理解。此外，我们通过最大化视频两个增强视图之间的协议，充分利用了视频之间的相似性关系，这有助于生成更具判别性和鲁棒性的哈希码。在三个大规模视频数据集（即FCVID、ActivityNet和YFCC）上的大量实验表明，ConMH实现了最先进的结果。代码可在https://github.com/huangmozhi9527/ConMH上找到。

（Self-Supervised Video Hashing (SSVH) models learn to generate short binary representations for videos without ground-truth supervision, facilitating large-scale video retrieval efficiency and attracting increasing research attention. The success of SSVH lies in the understanding of video content and the ability to capture the semantic relation among unlabeled videos. Typically, state-of-the-art SSVH methods consider these two points in a two-stage training pipeline, where they firstly train an auxiliary network by instance-wise mask-and-predict tasks and secondly train a hashing model to preserve the pseudo-neighborhood structure transferred from the auxiliary network. This consecutive training strategy is inflexible and also unnecessary. In this paper, we propose a simple yet effective one-stage SSVH method called ConMH, which incorporates video semantic information and video similarity relationship understanding in a single stage. To capture video semantic information for better hashing learning, we adopt an encoder-decoder structure to reconstruct the video from its temporal-masked frames. Particularly, we find that a higher masking ratio helps video understanding. Besides, we fully exploit the similarity relationship between videos by maximizing agreement between two augmented views of a video, which contributes to more discriminative and robust hash codes. Extensive experiments on three large-scale video datasets (i.e., FCVID, ActivityNet and YFCC) indicate that ConMH achieves state-of-the-art results. Code is available at https://github.com/huangmozhi9527/ConMH.）

一句话总结：

ConMH通过结合视频语义信息和相似性关系理解，在单个阶段实现了高效的自监督视频哈希学习。

Retrieval-Augmented Generative Question Answering for Event Argument Extraction

发布时间：2022-11-14

作者：Xinya Du, Heng Ji

中文摘要：

事件论元抽取长期以来被视为一种基于抽取的方法的序列预测问题，独立处理每个论元。尽管最近的研究提出了基于生成的方法来捕捉跨论元的依赖关系，但它们需要生成和后处理一个复杂的目标序列（模板）。受这些观察以及最近预训练语言模型从演示中学习的能力的启发，我们提出了一种检索增强的生成式问答模型（R-GQA）用于事件论元抽取。该模型检索最相似的问答对，并将其作为提示增强到当前示例的上下文中，然后解码论元作为答案。我们的方法在各种设置（即全监督、领域迁移和少样本学习）中显著优于先前的方法。最后，我们提出了一种基于聚类的采样策略（JointEnc）并深入分析了不同策略如何影响少样本学习性能。实现代码可在https://github.com/xinyadu/RGQA上找到。

一句话总结：

提出了一种基于检索增强的生成式问答模型，用于事件论元抽取，显著提升了少样本学习性能。

Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment

发布时间：2022-11-14

作者：Junyang Wang, Yi Zhang, Ming Yan, Ji Zhang, Jitao Sang

中文摘要：

CLIP（对比语言-图像预训练）在跨模态相关性任务，如视觉分类和图像检索中展现了显著的零样本迁移能力。然而，其在跨模态生成任务，如零样本图像描述中的表现仍不尽人意。在本工作中，我们讨论了直接使用CLIP进行零样本图像描述主要依赖于上下文中的文本模态，而很大程度上忽略了视觉信息，我们称之为（上下文语言先验）。为了解决这个问题，我们提出了跨模态语言模型（CLMs）以促进无监督的跨模态学习。我们进一步提出了锚点增强（Anchor Augment）来引导生成模型关注CLIP表示中的细粒度信息。在MS COCO和Flickr 30K上的实验验证了所提出方法在描述质量和计算效率方面的良好性能。

一句话总结：

本研究提出了一种基于跨模态语言模型的零样本图像描述方法，通过锚点增强技术提高了描述质量和计算效率。

Retrieval augmentation of large language models for lay language generation

发布时间：2022-11-07

作者：Yue Guo, Wei Qiu, Gondy Leroy, Sheng Wang, Trevor Cohen

中文摘要：

近年来，基于平行语料库训练的Transformer模型被用于提高健康信息的可及性。然而，这些模型的适用性受到可用语料库规模和主题广度的限制。我们引入了CELLS，这是迄今为止最大的（63k对）和范围最广的（12种期刊）用于平实语言生成的平行语料库。该语料库的摘要和相应的平实语言摘要均由领域专家撰写，确保了数据集的质量。此外，对专家撰写的平实语言摘要的定性评估揭示了背景解释是提高可及性的关键策略。这种解释对神经模型来说是一个挑战，因为它不仅涉及简化，还增加了源自原文的内容。我们从CELLS中衍生出两个专门的配对语料库来解决平实语言生成中的关键挑战：生成背景解释和简化原始摘要。我们将检索增强模型作为背景解释生成的直观选择，并展示了在保持事实正确性的同时，摘要质量和简洁性的改进。总之，这项工作对平实语言生成的背景解释进行了首次全面研究，为将科学知识传播给更广泛的受众铺平了道路。CELLS可在以下网址公开获取： https://github.com/LinguisticAnomalies/pls_retrieval。

一句话总结：

本研究提出了CELLS，一个大规模的平行语料库，用于平实语言生成，并通过生成背景解释来提高健康信息的可及性。

Suffix Retrieval-Augmented Language Modeling

发布时间：2022-11-06

作者：Zecheng Wang, Yik-Cheung Tam

中文摘要：

因果语言模型（Causal language modeling, LM）通过利用词的历史信息来预测下一个词。而BERT（Bidirectional Encoder Representations from Transformers）则利用句子中的双向词信息来预测被遮蔽位置上的词。尽管BERT在序列编码方面非常有效，但它本质上是非因果的，并且不是为序列生成而设计的。在本文中，我们提出了一种新颖的语言模型，即SUffix REtrieval-Augmented LM（SUREALM），它以自回归的方式模拟双向上下文效应。SUREALM使用一个嵌入检索器在数据存储中搜索在序列生成过程中具有相似词历史的训练句子。特别是，检索到的句子的后缀部分模仿了“未来”上下文。我们在DSTC9（Dialogue State Tracking Challenge 9）口语对话语料库上评估了我们的模型，并显示出与竞争基线相比，在验证集和测试集上具有有希望的词困惑度降低。

一句话总结：

本文提出了一种名为SUREALM的新语言模型，通过检索具有相似词历史的句子后缀部分来模拟双向上下文效应，从而在序列生成中实现词困惑度的降低。