Retrieval Augmented Generation - 2020年07月

Receptive-Field Regularized CNNs for Music Classification and Tagging

发布时间：2020-07-27

作者：Khaled Koutini, Hamid Eghbal-Zadeh, Verena Haunschmid, Paul Primus, Shreyan Chowdhury, Gerhard Widmer

中文摘要：

卷积神经网络（CNNs）在音乐信息检索（MIR）任务中已被成功应用，无论是作为端到端模型还是作为更复杂系统的特征提取器。然而，MIR领域仍然主要由基于VGG的CNN架构变体主导，通常与更复杂的模块如注意力机制相结合，以及/或在大数据集上进行预训练等技术。与其他领域相比，深度模型如ResNet在MIR中很少被使用。其中一个主要原因是，正如我们将要展示的，深度CNN在音乐领域的泛化能力不足。在本文中，我们提出了一种基于精心设计的正则化策略，使深度架构如ResNet在音乐相关任务上具有竞争力的方法。特别是，我们分析了最近引入的感知域正则化和Shake-Shake，并表明它们显著提高了深度CNN在音乐相关任务上的泛化能力，并且所得到的深度CNN可以优于当前更复杂的模型，如结合预训练和注意力机制的CNN。我们在两个不同的MIR任务和相应的数据集上展示了这一点，从而为我们提出的深度正则化CNN提供了这些数据集的新基线，这些基线也可以用作未来更复杂方法中的特征提取模块。

一句话总结：

本文提出了一种基于正则化策略的深度CNN模型，显著提高了音乐信息检索任务的泛化能力，并可作为未来复杂方法中的特征提取模块。

Screen Tracking for Clinical Translation of Live Ultrasound Image Analysis Methods

发布时间：2020-07-13

作者：Simona Treivase, Alberto Gomez, Jacqueline Matthew, Emily Skelton, Julia A. Schnabel, Nicolas Toussaint

中文摘要：

超声（US）成像是最常用的非侵入性成像技术之一。然而，超声图像的获取需要同时引导探头和解读图像，这是一项极具挑战性的任务，需要多年的训练。尽管近年来在检查过程中超声图像分析方面取得了许多进展，但将这些结果转化为临床环境并不容易。我们提出了一种通用框架，用于提取超声图像并叠加分析任务的结果，无需任何物理连接或对超声系统的修改。该方法通过跟踪超声医生视角固定的摄像头屏幕来捕捉超声图像，并将捕获的图像重新格式化为正确的宽高比，平均耗时87.66 ± 3.73毫秒。假设这将使这些检索到的图像能够输入到图像处理管道中，提取有助于改进检查的信息。这些信息最终可以通过例如增强现实（AR）头盔实时投影回超声医生的视野中。

一句话总结：

本研究提出了一种无需物理连接的通用框架，用于提取和叠加超声图像分析结果，以改善超声检查过程。

发布时间：2020-07-06

作者：Xun Yang, Jianfeng Dong, Yixin Cao, Xun Wang, Meng Wang, Tat-Seng Chua

中文摘要：

随着互联网上用户生成视频的快速增长，对基于文本的视频检索系统的需求日益加剧。传统方法主要倾向于基于概念的模式进行检索，使用简单的查询，这些查询通常对语义复杂的复杂查询效果不佳。最近，基于嵌入的模式作为一种流行的方法出现。它旨在将查询和视频映射到一个共享的嵌入空间，其中语义相似的文本和视频彼此更接近。尽管这种方法简单，但它放弃了利用文本查询的句法结构，因此在建模复杂查询时不是最优的。为了便于使用复杂查询进行视频检索，我们提出了一种树增强跨模态编码方法，通过联合学习查询的语言结构和视频的时间表示。具体来说，给定一个复杂的用户查询，我们首先递归地构建一个潜在语义树来结构性地描述文本查询。然后，我们设计了一种树增强查询编码器来推导结构感知的查询表示和一个时间注意力视频编码器来建模视频的时间特征。最后，查询和视频都被映射到一个联合嵌入空间进行匹配和排序。在这种方法中，我们对复杂查询有了更好的理解和建模，从而实现了更好的视频检索性能。在大型视频检索基准数据集上的大量实验证明了我们方法的有效性。

一句话总结：

本文提出了一种基于树增强的跨模态编码方法，通过联合学习查询的语言结构和视频的时间表示，实现了对复杂查询的更好理解和建模，从而提高了视频检索的性能。

Retrieval Augmented Generation - 2020年07月

Receptive-Field Regularized CNNs for Music Classification and Tagging

中文摘要：

一句话总结：

Screen Tracking for Clinical Translation of Live Ultrasound Image Analysis Methods

中文摘要：

一句话总结：

Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval

中文摘要：

一句话总结：