Retrieval Augmented Generation - 2022年05月

ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual Open-retrieval Question Answering System

发布时间：2022-05-30

作者：Chia-Chien Hung, Tommaso Green, Robert Litschko, Tornike Tsereteli, Sotaro Takeshita, Marco Bombieri, Goran Glavaš, Simone Paolo Ponzetto

中文摘要：

本文介绍了我们为MIA跨语言开放检索问答（COQA）任务提出的系统。在这个具有挑战性的场景中，系统需要从多语言语料库中收集证据文档，并使用这些文档以问题的语言生成答案。我们设计了多种方法，结合不同的模型变体，针对三个主要组件：数据增强、段落检索和答案生成。对于段落检索，我们评估了单语种BM25排名器与基于多语言预训练语言模型（PLM）的集成重排器以及共享任务基线的变体，通过从头开始重新训练并使用最近引入的对比损失，该损失通过混合负样本在整个训练过程中保持强大的梯度信号。对于答案生成，我们通过继续对现有的多语言编码器进行语言模型预训练，专注于语言和领域专业化。此外，为了解决数据稀缺的问题，尤其是对于没有提供训练数据的低资源语言，我们在任务组织者提供的数据基础上，增加了从维基百科段落中自动生成的问答对。我们的结果表明，语言和领域专业化以及数据增强对于低资源语言尤其有帮助。

一句话总结：

本文提出了一种针对跨语言开放检索问答任务的系统，通过语言和领域专业化以及数据增强，显著提高了低资源语言问答的准确性。

Training Efficient CNNS: Tweaking the Nuts and Bolts of Neural Networks for Lighter, Faster and Robust Models

发布时间：2022-05-23

作者：Sabeesh Ethiraj, Bharath Kumar Bolla

中文摘要：

深度学习已经彻底改变了计算机视觉、自然语言理解、语音识别、信息检索等多个领域。在过去十年中，许多技术得到了发展，使得模型变得更轻量、更快、更鲁棒，并且具有更好的泛化能力。然而，许多深度学习实践者仍然坚持使用在标准数据集（如ImageNet、MS-COCO、IMDB-Wiki数据集和Kinetics-700）上预训练的模型和架构，他们要么犹豫不决，要么没有意识到从头开始重新设计架构将导致更好的性能。这种状况导致了在移动、边缘和雾计算等不同设备上不合适的低效模型。此外，这些传统的训练方法引起了关注，因为它们消耗了大量的计算资源。在本文中，我们回顾了各种关于架构效率（全局平均池化、深度可分离卷积与压缩和激励、Blurpool）、学习率（周期性学习率）、数据增强（Mixup、Cutout）、标签操作（标签平滑）、权重空间操作（随机权重平均）和优化器（锐度感知最小化）的SOTA技术。我们展示了如何通过逐步减少训练参数数量并使用上述技术，分阶段地构建一个高效的深度卷积网络。我们在MNIST数据集上实现了99.2%的SOTA准确率，仅使用1500个参数，在CIFAR-10数据集上实现了86.01%的准确率，而参数数量仅为14万以上。

一句话总结：

本文提出了一种通过逐步减少训练参数数量并应用多种SOTA技术来构建高效深度卷积网络的方法，实现了在MNIST和CIFAR-10数据集上的高准确率。

Retrieval-Augmented Multilingual Keyphrase Generation with Retriever-Generator Iterative Training

发布时间：2022-05-21

作者：Yifan Gao, Qingyu Yin, Zheng Li, Rui Meng, Tong Zhao, Bing Yin, Irwin King, Michael R. Lyu

中文摘要：

关键词生成是指根据一段长文本自动预测关键词的任务。尽管这一领域近年来得到了快速发展，但针对非英语语言的关键词生成研究尚未得到充分探索。在本文中，我们关注一个新的设置，即多语言关键词生成，并贡献了两个新的数据集，EcommerceMKP和AcademicMKP，覆盖了六种语言。技术上，我们提出了一种用于多语言关键词生成的检索增强方法，以缓解非英语语言中的数据短缺问题。检索增强模型利用英语数据集中的关键词注释来促进低资源语言中关键词的生成。给定一个非英语段落，一个跨语言的密集段落检索模块找到相关的英语段落。然后，相关的英语关键词作为当前语言中关键词生成的外部知识。此外，我们开发了一种检索器-生成器迭代训练算法，以挖掘伪平行段落对，以增强跨语言段落检索器。综合实验和消融实验表明，提出的方法优于所有基线。

一句话总结：

本文提出了一种基于检索增强的多语言关键词生成方法，通过利用英语数据集的关键词注释和迭代训练算法，有效缓解了非英语语言中的数据短缺问题，并显著提升了关键词生成的性能。

Long-term Control for Dialogue Generation: Methods and Evaluation

发布时间：2022-05-15

作者：Ramya Ramakrishnan, Hashan Buddhika Narangodage, Mauro Schilman, Kilian Q. Weinberger, Ryan McDonald

中文摘要：

当前控制对话响应生成的方法主要关注高级属性，如风格、情感或主题。在本工作中，我们专注于受约束的长期对话生成，这涉及更细粒度的控制，并要求在生成的响应中出现一组特定的控制词。这种设置要求模型不仅要考虑在即时上下文中生成这些控制词，还要产生在未来某个时间（可能是遥远的未来）会鼓励生成这些词的表述。我们定义了对话生成的受约束长期控制问题，识别了当前方法在评估方面的差距，并提出了新的度量标准，这些标准更好地衡量了长期控制。我们还提出了一种检索增强方法，通过修改logit的技术来提高长期受控生成的性能。通过在三个面向任务的对话数据集上的实验，我们表明我们的度量标准相对于当前的替代方案更好地评估了对话控制，并且我们的方法优于最先进的受约束生成基线。

一句话总结：

本研究提出了一种新的对话生成控制方法，通过引入受约束长期控制和检索增强技术，显著提升了对话生成的长期控制性能。

Adversarial Learning of Hard Positives for Place Recognition

发布时间：2022-05-08

作者：Wenxuan Fang, Kai Zhang, Yoli Shavit, Wensen Feng

中文摘要：

本文提出了一种对抗性方法来指导训练图像检索网络时硬正样本的创建。该方法学习局部和全局的增强策略，这些策略会增加训练损失，迫使图像检索网络学习更强大的特征以区分越来越困难的示例。这种方法允许图像检索网络超越数据中呈现的硬示例，并学习对广泛变化具有鲁棒性的特征。在Pitts250和Tokyo 24/7基准测试中，该方法实现了最先进的召回率，并在rOxford和rParis数据集上显著优于最近的方法。

一句话总结：

本文提出了一种基于对抗性的图像检索网络训练方法，通过学习局部和全局增强策略，提高了检索网络的鲁棒性和泛化能力。

Analysing the Robustness of Dual Encoders for Dense Retrieval Against Misspellings

发布时间：2022-05-04

作者：Georgios Sidiropoulos, Evangelos Kanoulas

中文摘要：

密集检索正成为文档和段落排序的标准方法之一。由于其在效率和性能方面的优势，双编码器架构被广泛用于评分问答对。通常，密集检索模型在干净和精心整理的数据集上评估。然而，当这些模型在实际应用中部署时，它们会遇到噪声的用户生成文本。换句话说，当遇到噪声文本时，最先进的密集检索器的性能会显著下降。在这项工作中，我们研究了密集检索器对用户问题中错别字的鲁棒性。我们发现，当遇到错别字时，双编码器模型的性能会显著下降，并探索了通过结合数据增强和对比学习来提高其鲁棒性的方法。我们在两个大规模的段落排序和开放域问答数据集上的实验表明，我们提出的方法优于竞争方法。此外，我们对鲁棒性进行了彻底的分析。最后，我们提供了关于不同错别字如何以不同的方式影响嵌入的鲁棒性以及我们的方法如何减轻某些错别字的影响但不是其他错别字的见解。

一句话总结：

本研究通过结合数据增强和对比学习，提高了密集检索模型对用户问题中错别字的鲁棒性，并在实际应用中取得了优于现有方法的性能。