Retrieval Augmented Generation - 2019年05月

Beyond Visual Semantics: Exploring the Role of Scene Text in Image Understanding

发布时间：2019-05-25

作者：Arka Ujjal Dey, Suman Kumar Ghosh, Ernest Valveny, Gaurav Harit

中文摘要：

在日常生活中，包含视觉和场景文本内容的图像无处不在。然而，当前图像解释系统大多仅限于使用视觉特征，忽视了利用场景文本内容。在本文中，我们提出联合使用场景文本和视觉通道，以实现图像的鲁棒语义解释。我们不仅提取和编码视觉和场景文本线索，还建模它们之间的相互作用，以生成具有更丰富语义的上下文联合嵌入。因此生成的上下文嵌入被应用于多媒体图像检索和分类任务，以展示其有效性。在检索框架中，我们通过场景文本线索增强我们学习到的文本-视觉语义表示，以减轻在语义嵌入过程中可能发生的词汇缺失。为了处理场景文本的不相关或错误识别，我们还对我们的文本通道应用基于查询的注意力。我们展示了涉及视觉语义和场景文本的多通道方法如何优于现有技术。

一句话总结：

本文提出了一种结合场景文本和视觉通道的方法，以实现更鲁棒的图像语义解释，并通过检索和分类任务验证了其有效性。