Retrieval Augmented Generation - 2022年04月

Unaligned Supervision For Automatic Music Transcription in The Wild

发布时间：2022-04-28

作者：Ben Maman, Amit H. Bermano

中文摘要：

多乐器自动音乐转录（AMT），即把音乐录音解码成语义音乐内容，是音乐信息检索领域的一个圣杯。由于数据收集困难，当前的AMT方法仅限于钢琴和（某些）吉他录音。为了克服数据收集的障碍，之前的方法尝试使用数字化的同一首歌曲或作品的乐谱。这些乐谱通常通过音频特征和艰苦的人工干预来对齐，以生成训练标签。我们引入了NoteEM，这是一种在完全自动化的过程中同时训练转录器和将乐谱与其对应表演对齐的方法。使用这种未对齐的监督方案，辅以伪标签和音高移位增强，我们的方法能够以前所未有的准确性和乐器多样性在野外录音上进行训练。我们仅使用合成数据和未对齐的监督，报告了MAPS数据集在音符级别上的SOTA准确率，以及在跨数据集评估中的大幅有利优势。我们还展示了其鲁棒性和易用性；我们在一个小型、易于获取、自行收集的数据集上进行训练时，报告了可比的结果，并提出了对MusicNet数据集的替代标签，我们证明这种标签更准确。我们的项目页面可在https://benadar293.github.io找到。

一句话总结：

NoteEM通过未对齐监督和音高移位增强，实现了在野外录音上进行多乐器自动音乐转录的突破性进展。

Training and challenging models for text-guided fashion image retrieval

发布时间：2022-04-23

作者：Eric Dodds, Jack Culpepper, Gaurav Srivastava

中文摘要：

从目录中根据查询图像和修改后的标题检索相关图像是一项具有挑战性的多模态任务，尤其是在服装购物等需要通过自然语言表达细微细节和变化的领域。我们引入了一个新的评估数据集，即具有挑战性的时尚查询（Challenging Fashion Queries，CFQ），以及一种在现有的时尚智能查询（Fashion IQ，FIQ）数据集上实现最先进性能的建模方法。CFQ通过包含带有正负标签的相对标题和条件图像相似度来补充现有的基准，而其他方法只提供了具有综合意义的正标签。我们证明了多模态预训练对于该任务的重要性，并展示了基于属性标签的特定领域弱监督可以增强通用的大规模预训练。虽然之前的模态融合机制丧失了多模态预训练的优势，但我们引入了一种残差注意力融合机制，从而提高了性能。我们将CFQ和我们的代码发布给研究社区。

一句话总结：

本研究提出了一种新的多模态图像检索方法，通过引入新的数据集和融合机制，显著提升了服装购物等领域的图像检索性能。

Convex Augmentation for Total Variation Based Phase Retrieval

发布时间：2022-04-21

作者：Jianwei Niu, Hok Shing Wong, Tieyong Zeng

中文摘要：

相位恢复是一个具有显著物理和工业应用的重要问题。在本文中，我们考虑了底层信号测量幅度受到高斯噪声污染的情况。我们引入了一种基于全变分正则化的凸增强方法用于相位恢复。与流行的凸松弛模型如PhaseLift相比，我们的模型可以通过改进的半近似交替方向乘子法（sPADMM）有效地求解。改进的sPADMM比标准方法更通用和灵活，其收敛性也在本文中得到证明。通过大量的数值实验展示了所提方法的有效性。

一句话总结：

本文提出了一种基于全变分正则化的凸增强相位恢复方法，并利用改进的sPADMM算法实现了高效求解，通过数值实验验证了其有效性。

A Corpus for Understanding and Generating Moral Stories

发布时间：2022-04-20

作者：Jian Guan, Ziqi Liu, Minlie Huang

中文摘要：

讲故事的教学目的之一就是传授道德观念。理解和创作道德故事的关键能力在于将故事情节与隐含的道德联系起来。这一挑战主要在于：(1)掌握道德中抽象概念的知识，(2)捕捉故事中事件间的语篇关系，以及(3)协调故事与道德在善恶行为方面的价值偏好。在本文中，我们提出了两个理解任务和两个生成任务来评估机器的这些能力。我们提出了STORAL，一个包含中文和英文人类创作的道德故事的新数据集。通过在STORAL上对各种模型进行自动和人工评估，我们展示了所提任务的难度。此外，我们提出了一种检索增强算法，该算法有效地利用训练集中相关的概念或事件作为额外的指导，以提升这些任务上的性能。

一句话总结：

本文提出了一种新的数据集和算法，用于评估机器在理解和创作道德故事方面的能力。

Multi-Auxiliary Augmented Collaborative Variational Auto-encoder for Tag Recommendation

发布时间：2022-04-20

作者：Jing Yi, Xubin Ren, Zhenzhong Chen

中文摘要：

本文提出了一种多辅助增强协同变分自编码器（MA-CVAE）用于标签推荐，该模型通过定义生成过程将物品的协同信息和多辅助信息（即内容和社交图）相结合。具体来说，模型使用变分自编码器（VAE）从不同的物品辅助信息中学习深度潜在嵌入，通过引入由深度神经网络参数化的潜在变量参数，形成每个辅助信息上的生成分布。此外，为了为新物品推荐标签，利用物品多辅助潜在嵌入作为替代，通过物品解码器预测每个标签的推荐概率，在训练阶段添加重建损失以通过不同的辅助嵌入对生成进行约束。此外，还设计了一种归纳变分图自编码器，在测试阶段可以推断出新物品节点，从而可以利用物品社交嵌入为新物品提供服务。在MovieLens和citeulike数据集上的大量实验证明了该方法的有效性。

一句话总结：

本文提出的多辅助增强协同变分自编码器（MA-CVAE）通过结合物品协同信息和多辅助信息，有效地提高了标签推荐的质量。

CgAT: Center-Guided Adversarial Training for Deep Hashing-Based Retrieval

发布时间：2022-04-18

作者：Xunguang Wang, Yiqun Lin, Xiaomeng Li

中文摘要：

深度哈希由于其在大规模图像检索中的高效性和有效性而被广泛使用。然而，深度哈希模型容易受到对抗样本的攻击，因此开发针对图像检索的对抗防御方法变得至关重要。现有的解决方案由于使用弱对抗样本进行训练以及缺乏具有判别性的优化目标来学习鲁棒特征，因此防御性能有限。在本文中，我们提出了一种基于min-max的Center-guided对抗训练方法，称为CgAT，通过最坏的对抗样本来提高深度哈希网络的鲁棒性。具体来说，我们首先将中心码定义为输入图像内容的语义判别性代表，它保留了与正样本的语义相似性和与负样本的不相似性。我们证明了一个数学公式可以立即计算出中心码。在获得深度哈希网络的每个优化迭代中的中心码后，它们被用于指导对抗训练过程。一方面，CgAT通过最大化对抗样本的哈希码与中心码之间的汉明距离来生成最坏的对抗样本作为增强数据。另一方面，CgAT通过最小化与中心码的汉明距离来学习减轻对抗样本的影响。在基准数据集上的大量实验证明了我们的对抗训练算法在防御基于深度哈希的检索对抗攻击方面的有效性。与当前最先进的防御方法相比，我们在FLICKR-25K、NUS-WIDE和MS-COCO数据集上分别平均提高了18.61%、12.35%和11.56%的防御性能。代码可在https://github.com/xunguangwang/CgAT上找到。

一句话总结：

本文提出了一种基于min-max的CgAT对抗训练方法，通过最坏对抗样本提高深度哈希网络的鲁棒性，显著提升了图像检索的对抗防御性能。

Unsupervised Cross-Task Generalization via Retrieval Augmentation

发布时间：2022-04-17

作者：Bill Yuchen Lin, Kangmin Tan, Chris Miller, Beiwen Tian, Xiang Ren

中文摘要：

人类可以通过回忆之前获得的技能并将其推广到目标任务上来执行未见过的任务，即使没有任何监督。在本文中，我们旨在在不监督的设置下提高大规模多任务语言模型（如T0和FLAN）的这种跨任务泛化能力。我们提出了一种名为ReCross的检索增强方法，该方法使用少量未标记的示例作为查询来检索上游数据的一小部分子集，并使用这些数据来更新多任务模型以实现更好的泛化。ReCross是一种简单而有效的检索方法，它结合了高效的密集检索和有效的成对重排序。我们的结果和分析表明，它显著优于非检索方法和其他基线方法。

一句话总结：

本文提出了一种名为ReCross的检索增强方法，显著提高了大规模多任务语言模型的跨任务泛化能力。

DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust Conversational Modeling

发布时间：2022-04-15

作者：Lahari Poddar, Peiyao Wang, Julia Reinspach

中文摘要：

基于检索的对话系统通过计算其向量表示之间的相似度来学习为给定对话上下文排序响应候选者。然而，仅在对多轮上下文的单一文本形式进行训练限制了模型学习泛化到推理过程中遇到的天然扰动的能力。在本文中，我们提出了一种框架，该框架将增强版本的对话上下文纳入学习目标中。我们利用对比学习作为辅助目标，以学习对通过增强方法注入的扰动不变的鲁棒对话上下文表示。我们在四个基准对话数据集上进行了实验，并证明了我们的框架与现有的增强方法结合良好，并且可以显著优于基于基线BERT的排名架构。此外，我们提出了一种新的数据增强方法，ConMix，它通过在批次中随机混合来自其他上下文的标记来添加标记级别的扰动。我们表明，我们提出的增强方法优于先前的方法，并提供了对推理过程中常见的扰动更鲁棒的对话表示。

一句话总结：

本文提出了一种结合对比学习和数据增强的框架，显著提升了对话系统对自然扰动的鲁棒性。

KGI: An Integrated Framework for Knowledge Intensive Language Tasks

发布时间：2022-04-08

作者：Md Faisal Mahbub Chowdhury, Michael Glass, Gaetano Rossiello, Alfio Gliozzo, Nandana Mihindukulasooriya

中文摘要：

本文提出了一种系统，用于展示基于知识密集型语言任务（如槽填充、开放域问答、对话和事实核查）训练的最新最先进检索增强生成模型的性能。此外，针对用户查询，我们展示了如何将这些不同模型的输出进行组合，以相互交叉验证。特别是，我们展示了如何利用问答模型来提高对话的准确性。我们还将所有用于演示的模型作为本文的贡献之一发布。一个展示该系统的简短视频可在https://ibm.box.com/v/emnlp2022-demo上查看。

一句话总结：

本文提出了一种基于最新检索增强生成模型的系统，通过跨模型输出组合提高对话准确性，并公开了所有模型以供进一步研究。

CoCoSoDa: Effective Contrastive Learning for Code Search

发布时间：2022-04-07

作者：Ensheng Shi, Yanlin Wang, Wenchao Gu, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, Hongbin Sun

中文摘要：

代码搜索旨在为给定的自然语言查询检索语义相关的代码片段。最近，许多采用对比学习的方案在代码表示学习上取得了有希望的结果，并显著提高了代码搜索的性能。然而，在利用对比学习进行代码搜索方面仍有很大的改进空间。在本文中，我们提出了CoCoSoDa，通过对比学习中的两个关键因素——数据增强和负样本，有效地利用对比学习进行代码搜索。具体来说，软数据增强是通过动态地屏蔽或替换输入序列中的某些标记为它们的类型来生成正样本。动量机制通过维护一个队列和一个动量编码器，在迷你批次中生成大而一致的负样本表示。此外，多模态对比学习被用来拉近代码查询对表示的距离，并推开未配对的代码片段和查询。我们在包含六种编程语言的大型数据集上进行了广泛的实验，以评估我们方法的有效性。实验结果表明：(1) CoCoSoDa优于14个基线，在平均MRR分数上分别比CodeBERT、GraphCodeBERT和UniXcoder高出13.3%、10.5%和5.9%。(2) 消融研究显示了我们方法中每个组件的有效性。(3) 我们将我们的技术应用于几个不同的预训练模型，如RoBERTa、CodeBERT和GraphCodeBERT，并观察到它们在代码搜索中的性能显著提升。(4) 我们的模型在不同的超参数下表现稳健。此外，我们还进行了定性和定量分析，以探索我们模型良好性能背后的原因。

一句话总结：

CoCoSoDa通过数据增强和负样本优化对比学习，显著提升了代码搜索的性能。