Retrieval Augmented Generation - 2014年03月

CNN Features off-the-shelf: an Astounding Baseline for Recognition

发布时间：2014-03-23

作者：Ali Sharif Razavian, Hossein Azizpour, Josephine Sullivan, Stefan Carlsson

中文摘要：

最近的研究表明，从卷积神经网络中提取的通用描述符非常强大。本文进一步证实了这一点。我们报告了一系列实验，这些实验使用公开可用的\overfeat网络代码和模型进行，该网络是在ILSVRC13数据集上训练用于物体分类的。我们将从\overfeat网络中提取的特征作为通用图像表示，以应对物体图像分类、场景识别、细粒度识别、属性检测和图像检索等多样化的识别任务，这些任务应用在一系列不同的数据集上。我们选择这些任务和数据集，因为它们逐渐远离了\overfeat网络原本训练解决的问题和数据。令人惊讶的是，我们在各种数据集上的所有视觉分类任务中，都报告了与高度调优的先进系统相比一致优越的结果。例如，在检索任务中，除了雕塑数据集外，它始终优于低内存占用方法。这些结果是通过将线性SVM分类器（或检索情况下的$L2$距离）应用于从网络中提取的4096维特征表示来实现的。这些表示还通过简单的增强技术（例如抖动）进行了进一步修改。这些结果强烈表明，从具有卷积网络的深度学习中获得的特征应该是大多数视觉识别任务中的首选候选。

一句话总结：

本文通过在多个视觉识别任务上取得优越性能，证明了从卷积神经网络中提取的特征在大多数视觉识别任务中的有效性。