Retrieval Augmented Generation - 2021年12月

Modeling Mask Uncertainty in Hyperspectral Image Reconstruction

发布时间：2021-12-31

作者：Jiamian Wang, Yulun Zhang, Xin Yuan, Ziyi Meng, Zhiqiang Tao

中文摘要：

近年来，高光谱成像（HSI）引起了越来越多的研究关注，尤其是基于编码孔径快照光谱成像（CASSI）系统的那些。现有的深度HSI重建模型通常在配对数据上训练，以从CASSI中特定光学硬件掩模给出的二维压缩测量中检索原始信号，在这个过程中，掩模在很大程度上影响重建性能，并可以作为控制数据增强的“模型超参数”。这种针对掩模的特定训练方式会导致硬件校准错误问题，这为在不同硬件和噪声环境中部署深度HSI模型设置了障碍。为了应对这一挑战，我们引入了具有完整变分贝叶斯学习处理的HSI掩模不确定性，并通过受真实硬件启发的掩模分解来显式地建模它。具体来说，我们提出了一种基于图的自我调整（GST）网络，以推理适应不同硬件中掩模不同空间结构的不确定性。此外，我们开发了一个双层优化框架，以平衡HSI重建和不确定性估计，考虑到掩模的超参数属性。大量的实验结果和模型讨论验证了所提出的GST方法在两种校准错误场景下的有效性（超过33/30 dB），并显示出与最先进的校准良好方法相比具有高度竞争力的性能。我们的代码和预训练模型可在https://github.com/Jiamian-Wang/mask_uncertainty_spectral_SCI找到。

一句话总结：

提出了一种基于图的自我调整网络，以解决HSI重建中的掩模不确定性问题，提高了在不同硬件和噪声环境下的模型性能。

Evidentiality-guided Generation for Knowledge-Intensive NLP Tasks

发布时间：2021-12-16

作者：Akari Asai, Matt Gardner, Hannaneh Hajishirzi

中文摘要：

检索增强生成模型在许多知识密集型自然语言处理任务中，如开放问答和事实核查中，展现了最先进的性能。这些模型被训练在给定检索到的段落后生成最终输出，而这些段落可能与原始查询不相关，导致学习到虚假的线索或答案记忆。本研究提出了一种方法，将段落的有效性——即段落是否包含支持输出的正确证据——纳入到生成器的训练中。我们引入了一个多任务学习框架，以联合生成最终输出并预测每个段落的有效性，利用一种新的任务无关方法来获取银色有效性标签进行监督。我们在三个知识密集型任务中的五个数据集上的实验表明，我们的新有效性引导生成器在相同大小的模型下显著优于其直接对应版本，并在FaVIQ-Ambig上推进了最先进的技术。我们将这些改进归因于辅助多任务学习和银色有效性挖掘技术。

一句话总结：

本研究提出了一种基于段落有效性引导的生成模型，通过多任务学习和银色有效性挖掘技术显著提升了知识密集型自然语言处理任务的表现。

KAT: A Knowledge Augmented Transformer for Vision-and-Language

发布时间：2021-12-16

作者：Liangke Gui, Borui Wang, Qiuyuan Huang, Alex Hauptmann, Yonatan Bisk, Jianfeng Gao

中文摘要：

最近关于大规模Transformer的研究主要集中在优化模型参数中包含的信息量。在本工作中，我们提出了一个不同的问题：多模态Transformer能否利用其推理中的显式知识？现有的方法，主要是单模态方法，在知识检索后进行答案预测的范式下进行了探索，但留下了关于所使用检索知识的质量和相关性的问题，以及如何整合隐式和显式知识进行推理的问题。为了解决这些挑战，我们提出了一种新颖的模型——知识增强Transformer（KAT），在OK-VQA的开域多模态任务上实现了最先进的成果（绝对提升6分）。我们的方法在端到端的编码器-解码器架构中整合了隐式和显式知识，同时在生成答案时联合推理这两个知识来源。显式知识整合的额外好处在我们的分析中体现在模型预测的改进可解释性。

一句话总结：

本研究提出了一种名为KAT的知识增强Transformer模型，通过整合隐式和显式知识，在多模态问答任务上实现了显著的性能提升。

Deep Hash Distillation for Image Retrieval

发布时间：2021-12-16

作者：Young Kyun Jang, Geonmo Gu, Byungsoo Ko, Isaac Kang, Nam Ik Cho

中文摘要：

在基于哈希的图像检索系统中，退化或变换后的输入通常会产生与原始图像不同的代码，从而降低检索精度。为了缓解这一问题，可以在训练过程中应用数据增强。然而，即使增强后的图像样本在真实特征空间中相似，量化过程也可能将它们分散到汉明空间中较远的位置。这导致表示差异，可能会阻碍训练并降低性能。在本工作中，我们提出了一种新颖的自蒸馏哈希方案，以最小化这种差异并利用增强数据的潜力。通过将弱变换样本的哈希知识转移到强变换样本上，我们使哈希代码对各种变换不敏感。我们还引入了基于哈希代理的相似性学习和基于二元交叉熵的量化损失，以提供高质量的哈希代码。最终，我们构建了一个深度哈希框架，不仅改进了现有的深度哈希方法，还实现了最先进的检索结果。大量的实验证实了我们工作的有效性。

一句话总结：

提出了一种新颖的自蒸馏哈希方案，通过利用增强数据并提高哈希代码的鲁棒性，显著提升了基于哈希的图像检索系统的性能。

Self-Supervised Modality-Aware Multiple Granularity Pre-Training for RGB-Infrared Person Re-Identification

发布时间：2021-12-12

作者：Lin Wan, Qianyan Jing, Zongyuan Sun, Chuang Zhang, Zhihang Li, Yehansen Chen

中文摘要：

RGB-Infrared person re-identification（RGB-IR ReID）旨在将不同RGB和IR摄像头视角下的人进行关联。目前，RGB-IR ReID的性能并不像传统ReID那样令人印象深刻。这很大程度上是由于单模态ImageNet预训练带来的臭名昭著的模态偏差训练问题，这可能会产生RGB偏差的表示，严重阻碍跨模态图像检索。本文首次尝试从预训练的角度来解决这个问题。我们提出了一种名为模态感知多粒度学习（MMGL）的自监督预训练解决方案，它仅在多模态ReID数据集上从头开始训练模型，但与ImageNet预训练相比，取得了具有竞争力的结果，而不使用任何外部数据或复杂的调整技巧。首先，我们开发了一个简单但有效的“排列恢复”前缀任务，该任务将打乱的RGB-IR图像全局映射到一个共享的潜在排列空间，为下游ReID任务提供模态不变的全局表示。其次，我们提出了一种部分感知循环对比（PCC）学习策略，该策略利用跨模态循环一致性来最大化语义相似的RGB-IR图像块之间的协议。这使对比学习适用于未配对的多模态场景，进一步提高了局部特征的判别性，而无需繁琐的实例增强。基于这些设计，MMGL有效地缓解了模态偏差训练问题。大量的实验表明，它比ImageNet预训练学习到了更好的表示（+8.03% Rank-1准确率），具有更快的训练速度（仅需几个小时即可收敛）和更高的数据效率（<5%数据大小）。结果还表明，它很好地泛化到各种现有模型、损失，并在数据集之间具有有希望的迁移性。代码将发布。

一句话总结：

本文提出了一种名为模态感知多粒度学习（MMGL）的自监督预训练方法，有效缓解了RGB-IR ReID中的模态偏差问题，提高了跨模态图像检索的性能。

TempoQR: Temporal Question Reasoning over Knowledge Graphs

发布时间：2021-12-10

作者：Costas Mavromatis, Prasanna Lakkur Subramanyam, Vassilis N. Ioannidis, Soji Adeshina, Phillip R. Howard, Tetiana Grinberg, Nagib Hakim, George Karypis

中文摘要：

知识图谱问答（KGQA）涉及使用自然语言查询从知识图谱（KG）中检索事实。知识图谱是由实体通过关系链接的经过编辑的事实集合。某些事实还包括时间信息，形成一个时间知识图谱（TKG）。尽管许多自然问题涉及显式或隐式的时间约束，但针对时间知识图谱的问答（QA）相对较少被探索。现有的解决方案主要针对可以由单个TKG事实直接回答的简单时间问题。本文提出了一种基于嵌入的综合框架，用于回答TKG上的复杂问题。我们的方法称为时间问题推理（TempoQR），它通过利用TKG嵌入将问题定位到其指代的特定实体和时间范围。它通过采用三个专用模块来实现这一点：第一个计算给定问题的文本表示，第二个将其与问题中涉及的实体嵌入相结合，第三个生成特定于问题的时序嵌入。最后，一个基于transformer的编码器学习融合生成的时序信息与问题表示，用于答案预测。广泛的实验表明，TempoQR在复杂时间问题上的准确率比最先进的方法提高了25-45个百分点，并且它更好地泛化到未见过的问答类型。

一句话总结：

本文提出的时间问题推理（TempoQR）框架，通过结合TKG嵌入和上下文、实体和时间信息，显著提高了复杂时间知识图谱问答的准确率。

Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation

发布时间：2021-12-10

作者：Tianyi Liu, Zuxuan Wu, Wenhan Xiong, Jingjing Chen, Yu-Gang Jiang

中文摘要：

大多数现有的视觉-语言预训练方法专注于理解任务，并在预训练期间使用类似BERT的目标（掩码语言建模和图像-文本匹配）。尽管它们在许多理解下游任务中表现良好，例如视觉问答、图像-文本检索和视觉蕴涵，但它们不具备生成能力。为了解决这个问题，我们提出了统一的多模态预训练方法，用于视觉-语言理解和生成（UniVL）。所提出的UniVL能够处理理解和生成任务。我们通过引入因果掩码（即遮挡未来标记的三角形掩码）来增强现有的仅使用随机掩码的预训练范式，从而使预训练模型能够通过设计具有自回归生成能力。我们将几个先前的理解任务表述为文本生成任务，并提出使用基于提示的方法进行不同下游任务的微调。我们的实验表明，在使用相同模型的情况下，理解和生成任务之间存在权衡，而提高这两个任务的可行方法是使用更多数据。我们的UniVL框架在理解和生成任务上均取得了与最近视觉-语言预训练方法相当的性能。此外，我们还证明了基于提示的微调在少样本场景中更具数据效率——它优于判别方法。

一句话总结：

我们提出的UniVL框架通过引入因果掩码和基于提示的微调，实现了视觉-语言预训练在理解和生成任务上的平衡提升，并在少样本场景中表现出更高的数据效率。

Robust Information Retrieval for False Claims with Distracting Entities In Fact Extraction and Verification

发布时间：2021-12-10

作者：Mingwen Dong, Christos Christodoulopoulos, Sheng-Min Shih, Xiaofei Ma

中文摘要：

准确的事实检索对于自动化事实核查至关重要。以往的研究很少关注真实和虚假陈述之间的差异以及它们如何影响事实检索。本文表明，与真实陈述相比，虚假陈述更频繁地包含无关实体，这些实体可能会干扰事实检索模型的检索。基于BERT的检索模型在检索虚假陈述的反证证据时比检索真实陈述的支持证据犯更多的错误。当用包含无关实体的对抗性虚假陈述（合成生成）进行测试时，检索模型的召回率显著低于原始陈述。这些结果表明，基于BERT的原始检索模型对虚假陈述中的无关实体不稳健。通过在训练数据中添加包含无关实体的合成虚假陈述，训练后的模型实现了更高的证据召回率，包括包含无关实体的虚假陈述。此外，使用单独的模型分别检索反驳和支撑证据，然后进行聚合也可以提高证据召回率，包括包含无关实体的虚假陈述。这些结果表明，我们可以通过数据增强和模型集成来提高基于BERT的检索模型对包含无关实体的虚假陈述的鲁棒性。

一句话总结：

本文提出通过数据增强和模型集成方法，提高基于BERT的事实检索模型对虚假陈述中无关实体的鲁棒性。

Multilingual training for Software Engineering

发布时间：2021-12-03

作者：Toufique Ahmed, Premkumar Devanbu

中文摘要：

经过良好训练的机器学习模型，利用大量开源软件数据，已经成为自动化许多软件工程任务的一种有趣方法。近年来，随着模型和训练方法的改进，许多软件工程任务都采用了这种方法，性能逐渐提高。更多的、多样化的、干净且标记的数据对训练更有利；但构建高质量的数据库既耗时又具有挑战性。增加干净、标记数据的数量和多样性的方法通常具有广泛的应用性。对于某些语言（例如，Ruby）标记数据较少；而在其他语言（例如，JavaScript）中，可用的数据可能更专注于某些应用领域，因此多样性较低。为了克服这些数据瓶颈，我们提出了证据表明，不同语言中的人类编写的代码（执行相同的功能）相当相似，尤其是标识符命名模式；我们进一步提出了证据表明，标识符是软件工程任务训练数据中的一个非常重要的元素。我们利用这一相当偶然的现象，找到了证据表明，可用的多语言训练数据（跨不同语言）可以用来增强性能。我们针对3个不同的任务进行了研究：代码摘要、代码检索和函数命名。我们注意到，这种数据增强方法与不同的任务、语言和机器学习模型广泛兼容。

一句话总结：

利用不同语言中人类编写的代码相似性，通过多语言训练数据增强，提高软件工程任务的性能。