Retrieval Augmented Generation - 2020年08月

Symbolic Semantic Segmentation and Interpretation of COVID-19 Lung Infections in Chest CT volumes based on Emergent Languages

发布时间：2020-08-22

作者：Aritra Chowdhury, Alberto Santamaria-Pang, James R. Kubricht, Jianwei Qiu, Peter Tu

中文摘要：

新冠病毒疾病（COVID-19）导致了一场大流行，严重破坏了与日常生活息息相关的众多服务。通过计算机断层扫描（CT）切片对肺部感染进行分割，可以用于改善对COVID-19患者的诊断和理解。由于深度学习系统具有黑盒特性，因此缺乏可解释性。受人类通过语言交流复杂想法的启发，我们提出了一种基于涌现语言的符号框架，用于在肺部CT扫描中分割COVID-19感染。我们模拟了两个人工代理——发送者和接收者之间的合作。这些代理通过涌现符号语言协同合作，以解决语义分割的任务。我们的博弈论方法是对代理之间的合作进行建模，而不是生成对抗网络（GANs）。发送者从深度网络的一个较高层中检索信息，并生成一个从词汇分类分布中采样的符号句子。接收者摄入符号流并共同生成分割掩码。我们开发了一种私有涌现语言，它构成了描述COVID感染分割任务的通信渠道。我们通过我们的符号生成器增强现有的最先进的语义分割架构，形成符号分割模型。我们的符号分割框架在COVID-19引起的肺部感染分割方面实现了最先进的性能。我们的结果表明，符号句子的直接解释可以区分正常和感染区域、感染形态和图像特征。我们在CT中分割COVID-19肺部感染方面展示了最先进的结果。

一句话总结：

本研究提出了一种基于涌现语言的符号分割框架，实现了对COVID-19肺部感染的高效分割，并提供了对感染区域的直接解释。

VisualSem: A High-quality Knowledge Graph for Vision and Language

发布时间：2020-08-20

作者：Houda Alberts, Teresa Huang, Yash Deshpande, Yibo Liu, Kyunghyun Cho, Clara Vania, Iacer Calixto

中文摘要：

自然语言理解（NLU）和生成（NLG）领域的一个令人兴奋的前沿领域需要能够高效访问外部结构化知识库的（视觉和）语言模型。然而，许多现有的知识库仅覆盖有限的领域，或者数据存在噪声，最重要的是，通常难以集成到神经语言管道中。为了填补这一空白，我们发布了VisualSem：一个高质量的知识图谱（KG），其中包含具有多语言释义的节点、多个说明性图像和视觉相关的关系。我们还发布了一个神经多模态检索模型，该模型可以使用图像或句子作为输入，并在KG中检索实体。这个多模态检索模型可以集成到任何（神经网络）模型管道中。我们鼓励研究界将VisualSem用于数据增强和/或作为基础来源，以及其他可能的用途。VisualSem以及多模态检索模型均公开可用，可以通过以下链接下载：https://github.com/iacercalixto/visualsem

一句话总结：

VisualSem是一个高质量的知识图谱和多模态检索模型，旨在提高自然语言处理中的知识获取和利用效率。

Semi-supervised learning using teacher-student models for vocal melody extraction

发布时间：2020-08-14

作者：Sangeun Kum, Jing-Hua Lin, Li Su, Juhan Nam

中文摘要：

在许多音乐信息检索任务中，如旋律提取，由于标注过程极其繁琐或昂贵，缺乏标注数据成为一大障碍。半监督学习（SSL）通过利用大量未标注数据来缓解这一问题。在本文中，我们提出了一种使用教师-学生模型的半监督学习方法，用于声乐旋律提取。教师模型使用标注数据进行预训练，并在自训练设置中指导学生模型对未标注输入做出相同的预测。我们检验了三种教师-学生模型设置，这些设置采用了不同的数据增强方案和损失函数。同时，考虑到测试阶段标注数据的稀缺性，我们使用分析-综合方法从未标注数据中人工生成具有音高标签的大规模测试数据。结果表明，SSL方法显著提高了仅使用监督学习时的性能，且这种改进取决于教师-学生模型、未标注数据的大小、自训练迭代次数以及其他训练细节。我们还发现，确保未标注音频包含声乐部分至关重要。最后，我们展示了所提出的SSL方法使得基线卷积循环神经网络模型能够达到与现有最佳技术相当的性能。

一句话总结：

本文提出的基于教师-学生模型的半监督学习方法，通过利用未标注数据显著提升了声乐旋律提取的性能，并使基线卷积循环神经网络模型达到与现有最佳技术相当的水平。