Retrieval Augmented Generation - 2019年02月

LaSO: Label-Set Operations networks for multi-label few-shot learning

发布时间：2019-02-26

作者：Amit Alfassy, Leonid Karlinsky, Amit Aides, Joseph Shtok, Sivan Harary, Rogerio Feris, Raja Giryes, Alex M. Bronstein

中文摘要：

本文提出了一种针对多标签少样本分类场景的新型样本合成技术。该方法通过在特征空间中结合给定示例的成对例子，使得生成的合成特征向量对应于通过在对应输入对的标签集上执行某些集合运算得到的标签集的示例。因此，该方法能够生成包含两个输入样本中标签交集、并集或集合差的样本。研究表明，这些集合运算可以推广到训练过程中未见过的标签。这使得对新型类别的示例进行增强成为可能，从而促进了多标签少样本分类器的学习。通过大量实验，我们展示了该方法在标签集操作能力方面的良好表现，包括直接使用分类和检索指标，以及在执行多标签少样本学习数据增强的背景下。我们为这一新的挑战性任务提出了一个基准，并表明我们的方法与所有常见基线相比表现更优。

一句话总结：

本文提出了一种基于特征空间的多标签少样本分类样本合成方法，能够有效处理未见过的标签，并促进多标签少样本分类器的学习。

A Multi-Resolution Word Embedding for Document Retrieval from Large Unstructured Knowledge Bases

发布时间：2019-02-02

作者：Tolgahan Cakaloglu, Xiaowei Xu

中文摘要：

深度语言模型通过学习层次化表示已被证明是自然语言处理、文本挖掘和信息检索的有力工具。然而，对于检索任务而言，表现良好的表示必须能够捕捉不同抽象层次或上下文范围内的语义意义。在本文中，我们提出了一种新的方法来生成多分辨率词嵌入，该方法能够以上下文范围为依据，在多个分辨率上表示文档。为了研究其性能，我们在开放域问答设置中使用了斯坦福问答数据集（SQuAD）和通过搜索和阅读进行问答（QUASAR），其中第一个任务是找到回答给定问题的有用文档。为此，我们首先比较了各种文本嵌入方法在检索性能方面的质量，并与各种非增强基础嵌入的多分辨率表示进行了广泛的实证比较。我们认为，多分辨率词嵌入始终优于原始的对应物，而当它们被用于增强这些嵌入时，专门针对检索目的训练的深度残差神经网络模型可以带来进一步的显著收益。

一句话总结：

本文提出了一种基于多分辨率词嵌入的方法，通过上下文范围在多个分辨率上表示文档，显著提升了信息检索的性能。