Retrieval Augmented Generation - 2017年07月

Optical Music Recognition with Convolutional Sequence-to-Sequence Models

发布时间：2017-07-16

作者：Eelco van der Wel, Karen Ullrich

中文摘要：

光学音乐识别（OMR）是音乐信息检索领域的一项重要技术。深度学习模型在OMR任务上显示出有希望的结果，但用于训练此类模型的足够规模的符号级标注数据集并不存在，且难以开发。我们提出了一种名为卷积序列到序列的深度学习架构，旨在实现端到端可训练的OMR流程，并采用了一种基于乐谱完整句子的学习过程，而不是单独标注的符号。该模型在由人类生成且包含基于现实场景的各种图像增强的数据集上进行了训练和评估。这是OMR研究中第一个公开可用的、足够大以训练和评估深度学习模型的数据集。通过引入的增强，实现了81%的音高识别准确率和94%的时长准确率，从而达到了80%的音符级准确率。最后，该模型与商业可用方法进行了比较，显示出对这些应用的大幅改进。

一句话总结：

本研究提出了一种基于深度学习的OMR模型，通过图像增强和端到端训练，显著提高了音符识别的准确率，并优于现有商业方法。