Retrieval Augmented Generation - 2020年04月

Towards Multimodal Response Generation with Exemplar Augmentation and Curriculum Optimization

发布时间：2020-04-26

作者：Zeyang Lei, Zekang Li, Jinchao Zhang, Fandong Meng, Yang Feng, Yujiu Yang, Cheng Niu, Jie Zhou

中文摘要：

最近，基于变分自编码器（VAE）的方法在提高生成响应的多样性方面取得了显著的进展。然而，这些方法通常伴随着多样性的提升而牺牲了相关性。在本文中，我们提出了一种新颖的多模态响应生成框架，该框架结合了示例增强和课程优化，以增强生成响应的相关性和多样性。首先，与通常近似简单高斯后验分布的现有VAE模型不同，我们提出了一种高斯混合后验分布（即多模态），以进一步增加响应的多样性，这有助于捕捉响应的复杂语义。然后，为确保在增加多样性的同时不降低相关性，我们充分利用从训练数据中检索到的相似示例（示例）来增强后验分布模型中的响应相关性。此外，为了促进高斯混合先验和后验分布的收敛，我们设计了一种课程优化策略，以从简单到困难逐步训练模型。在广泛使用的SwitchBoard和DailyDialog数据集上的实验结果表明，与强大的基线相比，我们的模型在多样性和相关性方面取得了显著的改进。

一句话总结：

本文提出了一种结合示例增强和课程优化的多模态响应生成框架，有效提升了生成响应的多样性和相关性。

Incorporating External Knowledge through Pre-training for Natural Language to Code Generation

发布时间：2020-04-20

作者：Frank F. Xu, Zhengbao Jiang, Pengcheng Yin, Bogdan Vasilescu, Graham Neubig

中文摘要：

开放域代码生成旨在从自然语言（NL）意图中生成通用编程语言（如Python）的代码。受开发者通常在编写代码时从网络上检索资源的直觉启发，我们探讨了将两种外部知识融入自然语言到代码生成中的有效性：从在线编程问答论坛StackOverflow自动挖掘的NL-code对以及编程语言API文档。我们的评估表明，通过数据增强和基于检索的数据重采样将这两种来源结合起来，在代码生成测试平台CoNaLa上将当前最先进水平提高了高达2.2%的绝对BLEU分数。代码和资源可在https://github.com/neulab/external-knowledge-codegen获取。

一句话总结：

本研究通过结合在线编程问答论坛和API文档中的外部知识，显著提升了自然语言到代码生成的性能。

Image Quality Assessment: Unifying Structure and Texture Similarity

发布时间：2020-04-16

作者：Keyan Ding, Kede Ma, Shiqi Wang, Eero P. Simoncelli

中文摘要：

本文旨在开发一种新的图像质量评估模型，该模型能够对图像质量进行客观测量。相对于人类观察者，传统的图像质量评估方法对纹理区域的重新采样（例如，用一块草替换另一块草）过于敏感。为此，我们开发了一种具有显式容忍纹理重新采样的全参考图像质量模型。我们利用卷积神经网络构建了一个注入性和可微分的函数，该函数将图像转换为多尺度完备表示。通过实证研究，我们发现这种表示中的特征图的空间平均值能够捕捉纹理外观，因为它们提供了一组足够的统计约束，可以合成各种纹理模式。然后，我们描述了一种图像质量方法，该方法结合了这些空间平均值的相关性（“纹理相似性”）和特征图的相关性（“结构相似性”）。所提出度量方法的参数被联合优化，以匹配人类对图像质量的评分，同时最小化从同一纹理图像裁剪出的子图像之间的报告距离。实验表明，该方法可以解释人类感知评分，无论是在传统的图像质量数据库上，还是在纹理数据库上。此外，该度量方法在相关任务（如纹理分类和检索）上也表现出竞争力。最后，我们证明了该方法对几何变换（例如，平移和膨胀）相对不敏感，而无需使用任何专门的训练或数据增强。代码可在https://github.com/dingkeyan93/DISTS上找到。

一句话总结：

本文提出了一种基于卷积神经网络的图像质量评估模型，能够有效捕捉纹理特征并适应几何变换，同时与人类感知评分高度一致。

Exemplar VAE: Linking Generative Models, Nearest Neighbor Retrieval, and Data Augmentation

发布时间：2020-04-09

作者：Sajad Norouzi, David J. Fleet, Mohammad Norouzi

中文摘要：

我们引入了Exemplar VAEs，这是一系列生成模型，它们在参数化和非参数化、基于示例的生成模型之间架起了一座桥梁。Exemplar VAE是一种VAE的变体，它在潜在空间中具有基于Parzen窗口估计器的非参数先验。为了从其采样，首先从一个训练集中抽取一个随机示例，然后随机地将该示例转换成一个潜在代码和一个新的观测值。我们提出检索增强训练（RAT）作为一种方法，通过在潜在空间中使用近似最近邻搜索来定义对数边缘似然的下界，从而加快Exemplar VAE的训练速度。为了增强泛化能力，模型参数是通过使用示例留一法和子采样来学习的。实验证明了Exemplar VAEs在密度估计和表示学习方面的有效性。重要的是，在排列不变性MNIST和Fashion MNIST上使用Exemplar VAE进行生成数据增强，将分类错误从1.17%降低到0.69%，从8.56%降低到8.16%。

一句话总结：

Exemplar VAEs通过结合非参数先验和检索增强训练，在生成模型中实现了参数化和非参数化之间的桥梁，有效提升了数据增强和分类性能。

Feature Re-Learning with Data Augmentation for Video Relevance Prediction

发布时间：2020-04-08

作者：Jianfeng Dong, Xun Wang, Leimin Zhang, Chaoxi Xu, Gang Yang, Xirong Li

中文摘要：

预测两个给定视频在视觉内容上的相关性是内容驱动的视频推荐和检索的关键组成部分。得益于预训练的图像和视频卷积神经网络模型的日益普及，深度视觉特征被广泛用于视频内容表示。然而，由于两个视频的相关性是任务依赖的，这种现成的特征并不总是对所有任务都是最优的。此外，由于版权、隐私和安全等方面的考虑，人们可能只能访问预计算的视频特征而不是原始视频。在本文中，我们提出了一种特征重学习的方法来提高视频相关性预测，而不需要重新访问原始视频内容。具体来说，重学习是通过通过仿射变换将给定的深度特征投影到新的空间中实现的。我们通过一种新颖的负增强三元组排序损失来优化重学习过程。为了生成更多的训练数据，我们提出了一种新的数据增强策略，该策略直接作用于帧级和视频级特征。在2018年Hulu内容驱动的视频相关性预测挑战赛中的大量实验验证了所提出方法的有效性及其在内容驱动的视频相关性预测中的最先进性能。

一句话总结：

本文提出了一种基于特征重学习的视频相关性预测方法，通过优化重学习过程和数据增强策略，显著提高了内容驱动的视频相关性预测的性能。