Retrieval Augmented Generation - 2020年11月

Investigating Societal Biases in a Poetry Composition System

发布时间：2020-11-05

作者：Emily Sheng, David Uthus

中文摘要：

随着对语言理解、生成和检索任务中社会偏见分析和缓解的研究越来越多，但在创意任务中考察偏见的研究仍然相对较少。创意语言应用旨在与用户进行直接互动，因此在这些应用中量化并缓解社会偏见至关重要。我们介绍了一种新颖的研究，研究了一种缓解在诗歌创作系统中检索下一句建议时社会偏见的管道。我们的结果表明，通过情感风格迁移进行数据增强在缓解社会偏见方面具有潜力。

一句话总结：

本研究提出了一种通过情感风格迁移进行数据增强的方法，以缓解诗歌创作系统中检索下一句建议时的社会偏见。

Augmenting Images for ASR and TTS through Single-loop and Dual-loop Multimodal Chain Framework

发布时间：2020-11-04

作者：Johanes Effendi, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura

中文摘要：

先前的研究提出了一种机器语音链，以实现自动语音识别（ASR）和文本到语音合成（TTS）在半监督学习中的相互辅助，并避免需要大量成对的语音和文本数据。然而，该框架仍然需要大量未成对的（语音或文本）数据。随后，探索了一个原型多模态机器链，以进一步减少对大量未成对数据的需求，这可以在没有更多语音或文本数据的情况下提高ASR或TTS的性能。不幸的是，这个框架依赖于图像检索（IR）模型，因此它仅限于处理训练期间已知的那些图像。此外，该框架的性能仅使用单说话人的人工语音数据进行调查。在本研究中，我们通过图像生成（IG）重新设计了多模态机器链框架，并调查了在多说话人自然语音数据上使用单循环和双循环架构增强图像数据以用于ASR和TTS的可能性。实验结果表明，单循环和双循环的多模态链框架都使得ASR和TTS能够通过仅使用图像数据集来提高其性能。

一句话总结：

本研究通过引入图像生成技术，改进了多模态机器链框架，实现了在多说话人自然语音数据上通过图像数据增强自动语音识别和文本到语音合成的性能。