Retrieval Augmented Generation - 2020年03月
Embedding Expansion: Augmentation in Embedding Space for Deep Metric Learning
发布时间:2020-03-05
作者:Byungsoo Ko, Geonmo Gu
中文摘要:
本文研究了成对样本之间的距离度量在图像检索和聚类中的应用。随着基于成对样本的度量学习损失的显著成功,近期的研究提出了在度量学习损失中使用生成的合成点以实现增强和泛化。然而,这些方法需要额外的生成网络与主网络相结合,这可能导致模型尺寸增大、训练速度减慢和优化难度增加。同时,后处理技术,如查询扩展和数据库增强,提出了结合特征点以获取额外语义信息的方法。受查询扩展和数据库增强的启发,本文提出了一种用于成对度量学习损失的嵌入空间增强方法,称为嵌入扩展。该方法通过特征点的组合生成包含增强信息的合成点,并执行硬负对挖掘以学习最有信息量的特征表示。由于其简单性和灵活性,该方法可以在不影响模型尺寸、训练速度或优化难度的情况下用于现有的度量学习损失。最后,嵌入扩展与代表性度量学习损失的组合在图像检索和聚类任务中均优于最先进的损失和之前的样本生成方法。实现代码已公开。
一句话总结:
本文提出的嵌入扩展方法通过特征点组合生成合成点,有效增强了度量学习损失,提高了图像检索和聚类任务的性能。
XGPT: Cross-modal Generative Pre-Training for Image Captioning
发布时间:2020-03-03
作者:Qiaolin Xia, Haoyang Huang, Nan Duan, Dongdong Zhang, Lei Ji, Zhifang Sui, Edward Cui, Taroon Bharti, Xin Liu, Ming Zhou
中文摘要:
尽管许多基于BERT的跨模态预训练模型在图像-文本检索和VQA等下游理解任务上取得了优异的结果,但它们不能直接应用于生成任务。在本文中,我们提出了XGPT,这是一种新的跨模态生成预训练方法,旨在通过三种新颖的生成任务来预训练文本到图像的标题生成器,包括图像条件下的掩码语言模型(Image-conditioned Masked Language Modeling, IMLM)、图像条件下的去噪自动编码(Image-conditioned Denoising Autoencoding, IDA)和文本条件下的图像特征生成(Text-conditioned Image Feature Generation, TIFG)。因此,预训练的XGPT可以在没有任何特定任务架构修改的情况下进行微调,以创建图像标题的顶尖模型。实验表明,XGPT在包括COCO Captions和Flickr30k Captions在内的基准数据集上获得了新的最先进结果。我们还使用XGPT生成新的图像标题作为图像检索任务的数据增强,并在所有召回率指标上实现了显著改进。
一句话总结:
XGPT通过创新的跨模态生成预训练方法,显著提升了图像标题生成的性能。