Retrieval Augmented Generation - 2022年08月

Multimedia Generative Script Learning for Task Planning

发布时间：2022-08-25

作者：Qingyun Wang, Manling Li, Hou Pong Chan, Lifu Huang, Julia Hockenmaier, Girish Chowdhary, Heng Ji

中文摘要：

目标导向的生成脚本学习旨在生成达到特定目标的后续步骤，这是协助机器人或人类执行典型活动的一项基本任务。这一过程的一个重要方面是能够以视觉方式捕捉历史状态，这提供了文本所无法涵盖的详细信息，并将指导后续步骤。因此，我们提出了一种新的任务，即多媒体生成脚本学习，通过跟踪文本和视觉模态中的历史状态来生成后续步骤，并提出了包含5,652个任务和79,089个多媒体步骤的第一个基准。这项任务在三个方面具有挑战性：捕捉图像中视觉状态的多媒体挑战、执行未见任务的归纳挑战以及覆盖单个步骤中不同信息的多样性挑战。我们提出通过选择性多媒体编码器来编码视觉状态变化以应对多媒体挑战，使用检索增强解码器从先前观察到的任务中迁移知识以克服归纳挑战，并通过优化面向多样性的对比学习目标来进一步在每一步展示独特信息。我们定义了用于评估生成和归纳质量的指标。实验结果表明，我们的方法在性能上显著优于强基线。

一句话总结：

该研究提出了一种多媒体生成脚本学习方法，通过跟踪历史状态和优化对比学习目标，有效提升了生成脚本的质量，并在多个挑战性任务中优于现有基线。

Early Stage Sparse Retrieval with Entity Linking

发布时间：2022-08-09

作者：Dahlia Shehata, Negar Arabzadeh, Charles L. A. Clarke

中文摘要：

尽管在低资源环境下具有优势，传统的稀疏检索器依赖于查询和集合的高维词袋（BoW）表示之间的精确匹配方法。因此，检索性能受到语义差异和词汇差距的限制。另一方面，基于transformer的密集检索器通过利用语料库的低维上下文表示，在信息检索任务中引入了显著的改进。尽管密集检索器以其相对有效性而闻名，但与稀疏检索器相比，它们在效率较低和泛化能力不足方面存在缺陷。对于轻量级检索任务，高计算资源和时间消耗是主要的障碍，这促使人们放弃密集模型，尽管可能带来收益。在本工作中，我们提出通过以下两种格式扩展查询和文档中的链接实体来提高稀疏检索器的性能：1）显式和2）哈希。我们采用零样本端到端密集实体链接系统进行实体识别和消歧，以增强语料库。通过利用先进的实体链接方法，我们相信可以缩小稀疏和密集检索器之间的有效性差距。我们在MS MARCO passage数据集上进行了实验。由于我们关注大型信息检索系统中级联排名架构的早期检索阶段，我们使用recall@1000来评估我们的结果。我们的方法也能够检索出在先前工作中被认为特别困难的查询子集的文档。我们进一步证明，非扩展和扩展的运行，无论是显式还是哈希实体，都检索到互补的结果。因此，我们采用运行融合方法来最大化实体链接的益处。

一句话总结：

本研究通过扩展查询和文档中的链接实体，并利用先进的实体链接技术，有效提升了稀疏检索器的性能，缩小了其与密集检索器之间的性能差距。

A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval

发布时间：2022-08-03

作者：Alex Falcon, Giuseppe Serra, Oswald Lanz

中文摘要：

每小时，大量的视觉内容被发布在社交媒体和用户生成内容平台上。为了通过自然语言查询找到相关视频，近年来文本-视频检索方法受到了越来越多的关注。数据增强技术被引入，通过应用语义保持技术（如图像的颜色空间或几何变换）创建新的训练样本，以增加在未见过的测试示例上的性能。然而，这些技术通常应用于原始数据，导致资源需求更高的解决方案，并且还需要原始数据的可共享性，这并不总是成立，例如与电影或电视剧片段的版权问题。为了解决这一不足，我们提出了一种多模态数据增强技术，该技术在工作于特征空间中，通过混合语义相似的样本来创建新的视频和字幕。我们在大规模公共数据集EPIC-Kitchens-100上对我们的解决方案进行了实验，并在基线方法上实现了显著的改进，同时达到了最先进的性能，并进行了多次消融研究。我们在GitHub上发布了代码和预训练模型，链接为https://github.com/aranciokov/FSMMDA_VideoRetrieval。

一句话总结：

提出了一种基于特征空间的多模态数据增强技术，通过混合语义相似的样本来提高视频检索的性能。