Retrieval Augmented Generation - 2020年06月

Generative Semantic Hashing Enhanced via Boltzmann Machines

发布时间：2020-06-16

作者：Lin Zheng, Qinliang Su, Dinghan Shen, Changyou Chen

中文摘要：

生成语义哈希是一种对大规模信息检索很有前景的技术，这得益于其快速的检索速度和较小的内存占用。为了训练的可行性，现有的生成哈希方法大多假设后验分布具有分解形式，强制哈希码位之间的独立性。从模型表示和代码空间大小的角度来看，独立性并不总是最佳假设。在本文中，为了在哈希码位之间引入相关性，我们提出采用玻尔兹曼机的分布作为变分后验。为了解决训练的不易处理问题，我们首先开发了一种近似方法，通过将其作为高斯分布和伯努利分布的层次级联来增强玻尔兹曼机的分布进行重新参数化。在此基础上，进一步推导出证据下界（ELBO）的渐近精确下界。利用这些新颖的技术，整个模型可以有效地进行优化。大量的实验结果表明，通过有效地建模哈希码中不同位之间的相关性，我们的模型可以实现显著的性能提升。

一句话总结：

本文提出了一种基于玻尔兹曼机分布的生成语义哈希方法，通过引入哈希码位之间的相关性，实现了信息检索性能的显著提升。

Retrieval-Augmented Generation for Code Summarization via Hybrid GNN

发布时间：2020-06-09

作者：Shangqing Liu, Yu Chen, Xiaofei Xie, Jingkai Siow, Yang Liu

中文摘要：

源代码摘要旨在从结构化代码片段生成自然语言摘要，以更好地理解代码功能。然而，由于源代码的复杂性和源代码与自然语言摘要之间的语言差距，自动代码摘要具有挑战性。大多数先前的方法要么依赖于基于检索的方法（可以利用检索数据库中看到的相似示例，但泛化性能较低），要么依赖于基于生成的方法（泛化性能较好，但不能利用相似示例）。本文提出了一种新颖的检索增强机制，以结合两者的优点。此外，为了减轻图神经网络（GNNs）在捕获源代码全局图结构信息方面的局限性，我们提出了一种基于注意力的动态图，以补充源代码的静态图表示，并设计了一种混合消息传递GNN，以捕获局部和全局结构信息。为了评估所提出的方法，我们发布了一个新的具有挑战性的基准，该基准是从多样化的大规模开源C项目（数据集中总共有95k+个独特的函数）爬取的。我们的方法在BLEU-4、ROUGE-L和METEOR方面均达到了最先进的性能，分别比现有方法提高了1.42、2.44和1.29。

一句话总结：

本文提出了一种结合检索和生成优势的源代码摘要方法，通过改进图神经网络和引入动态图结构，显著提升了摘要质量。

ORCAS: 18 Million Clicked Query-Document Pairs for Analyzing Search

发布时间：2020-06-09

作者：Nick Craswell, Daniel Campos, Bhaskar Mitra, Emine Yilmaz, Bodo Billerbeck

中文摘要：

用户通过在搜索引擎中进行查询和点击来揭示他们的信息需求，这使得点击日志成为信息检索的有用资产。然而，由于点击日志可能会泄露个人或商业敏感信息，因此它们尚未公开发布供学术研究使用。本文描述了与TREC深度学习轨道文档语料库相关的点击数据发布。经过聚合和过滤，包括k匿名性要求，我们发现TREC DL中的140万个URL与1000万个不同的查询有1800万个连接。我们这些查询和与TREC文档的连接的数据库大小与之前关于查询挖掘和排名的论文中使用的专有数据集相当。我们使用点击数据对TREC DL训练数据进行了一些初步实验，与比较：提供了28倍的查询量，与4.4倍的语料库URL有49倍的连接。我们介绍了数据集的生成过程、特征、在排名中的应用，并提出了其他潜在用途。

一句话总结：

本文介绍了基于TREC深度学习轨道文档语料库的点击数据发布，并探讨了其用于信息检索和排名的潜在应用。