Retrieval Augmented Generation - 2015年11月
Long Concept Query on Conceptual Taxonomies
发布时间:2015-11-29
作者:Yi Zhang, Yanghua Xiao, Seung-won Hwang, Wei Wang
中文摘要:
本文研究了在给定概念作为查询时寻找典型实体的问题。对于像大学这样的短概念,这是一个已经得到充分研究的问题,即从如微软的Probase和谷歌的isA数据库中检索知识库,预先材料化在Web语料库的Hearst模式中找到的概念。然而,我们发现大多数现实生活中的查询都是长概念查询(LCQs),例如“顶级美国私立大学”,这些查询不能也不应该预先材料化。我们的目标是实现LCQs的在线实体检索。我们认为,将LCQs重写为一系列组成短概念的交集的简单基线会导致高度精确的结果,但召回率极低。相反,我们提出通过识别查询概念的相关概念来扩充概念列表。然而,由于这种召回率的增加往往会导致假阳性增加,并降低精确度,我们提出了以下两种技术:首先,我们识别具有不同相关性的概念,以生成线性排序和成对排序约束。其次,我们尝试避免与这些约束冲突的实体排名,以剪枝掉排名较低的实体(可能是假阳性)。通过这些新颖的技术,我们的方法在性能上显著优于现有技术。
一句话总结:
本文提出了一种基于相关概念识别和排序约束的在线实体检索方法,有效提高了长概念查询的召回率和精确度。