Retrieval Augmented Generation - 2023年03月

RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation

发布时间：2023-03-22

作者：Fengji Zhang, Bei Chen, Yue Zhang, Jacky Keung, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen

中文摘要：

仓库级别的代码补全任务是基于仓库的更广泛上下文来继续编写未完成的代码。而对于自动代码补全工具来说，利用散布在不同文件中的有用信息是非常困难的。我们提出了RepoCoder，这是一个简单、通用且有效的框架，用于解决这一挑战。它通过在迭代检索生成管道中结合基于相似性的检索器和预训练的代码语言模型来简化仓库级别的代码补全过程。RepoCoder能够有效地利用仓库级别的信息进行代码补全，并且能够以不同粒度级别生成代码。此外，我们提出了一个新的基准RepoEval，它包含最新的高质量真实仓库，涵盖了行、API调用和函数体补全场景。实验结果表明，RepoCoder在所有设置中显著提高了文件内补全基线超过10%，并且始终优于传统的检索增强代码补全方法。此外，我们通过全面分析验证了RepoCoder的有效性，为未来的研究提供了有价值的见解。我们的源代码和基准是公开可用的：https://github.com/microsoft/CodeT/tree/main/RepoCoder

一句话总结：

RepoCoder是一个基于仓库的代码补全框架，通过结合相似性检索和预训练语言模型，显著提升了代码补全的准确性和效率。

Picture that Sketch: Photorealistic Image Generation from Abstract Sketches

发布时间：2023-03-20

作者：Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song

中文摘要：

本文提出了一种将非专业爱好者绘制的抽象、变形草图转换为逼真图像的方法，如图1(a)所示，所有图像均未经过挑选。与现有技术相比，我们并非一开始就指定一个类似于边缘图的手绘草图，而是旨在处理抽象的自由手绘草图。为此，我们本质上实现了草图到照片的管道民主化，无论你的草图绘制得如何，都能将其“描绘”出来。我们的主要贡献是一个解耦的编码器-解码器训练范式，其中解码器是仅使用照片训练的StyleGAN。这重要地保证了生成结果始终是逼真的。其余部分都集中在如何最好地处理草图和照片之间的抽象差距。为此，我们提出了一种基于草图-照片对的自动回归草图映射器，该映射器将草图映射到StyleGAN的潜在空间。我们进一步引入了特定的设计来处理人类草图的抽象性质，包括在训练的草图-照片检索模型背后的细粒度判别损失，以及部分感知草图增强策略。最后，我们展示了我们的生成模型能够实现的一些下游任务，其中之一是展示如何将细粒度基于草图图像检索（在草图社区中是一个研究问题），简化为图像（生成）到图像检索任务，超越了现有技术。我们在补充材料中提供了生成结果，供大家审查。

一句话总结：

本文提出了一种将草图转换为逼真图像的新方法，通过解耦的编码器-解码器训练范式和自动回归草图映射器，实现了草图到照片的转换，并超越了现有技术。

InferFix: End-to-End Program Repair with LLMs

发布时间：2023-03-13

作者：Matthew Jin, Syed Shahriar, Michele Tufano, Xin Shi, Shuai Lu, Neel Sundaresan, Alexey Svyatkovskiy

中文摘要：

软件开发生命周期深受缺陷的影响：缺陷的引入、识别和最终解决占据了软件成本的大部分。这促使软件工程研究人员和实践者提出不同的方法来自动化软件缺陷的识别和修复。大型语言模型通过少量样本演示学习和指令提示被应用于程序修复任务，将其视为一个填充任务。然而，这些模型仅关注从公共存储库中挖掘的无分类缺陷的通用修复模式的学习。在本文中，我们提出了InferFix：一个基于transformer的程序修复框架，与最先进的静态分析器相结合，用于修复关键的安全性和性能缺陷。InferFix结合了一个Retriever——通过对比学习目标预训练的transformer编码器模型，旨在搜索语义等价的缺陷和相应的修复；以及一个Generator——一个在大语言模型（Codex Cushman）上微调的模型，使用带有缺陷类型注释的提示和从外部非参数记忆中检索到的语义相似修复进行增强。为了训练和评估我们的方法，我们精心制作了InferredBugs，这是一个新颖的、元数据丰富的缺陷数据集，通过在数千个Java和C#存储库的变更历史中执行Infer静态分析器提取缺陷。我们的评估表明，InferFix在生成修复方面优于强大的LLM基线，C#的top-1准确率为65.6%，Java为76.8%。我们讨论了InferFix与Infer在微软的部署，InferFix提供了从检测、分类、定位缺陷到修复和验证候选补丁的端到端解决方案，并集成到持续集成管道中，以自动化软件开发流程。

一句话总结：

InferFix是一个基于transformer的程序修复框架，结合静态分析器和大型语言模型，用于自动化修复Java和C#软件中的关键安全性和性能缺陷。

Semantic-Preserving Augmentation for Robust Image-Text Retrieval

发布时间：2023-03-10

作者：Sunwoo Kim, Kyuhong Shim, Luong Trung Nguyen, Byonghyo Shim

中文摘要：

图像文本检索是一项旨在搜索视觉世界的适当文本描述及其相反任务。这项任务的一个挑战是输入图像和文本的脆弱性。这种脆弱性在训练过程中往往未被察觉，并且会显著降低检索模型的决策质量。在本文中，我们提出了一种新颖的图像文本检索技术，称为鲁棒视觉语义嵌入（RVSE），它包括两种新颖的基于图像和文本的增强技术，称为语义保留增强图像（SPAugI）和文本（SPAugT）。由于SPAugI和SPAugT以保留其语义信息的方式改变原始数据，我们强制特征提取器生成无论是否存在破坏的语义感知嵌入向量，从而显著提高模型的鲁棒性。通过使用基准数据集的大量实验，我们表明RVSE在图像-文本检索性能方面优于传统的检索方案。

一句话总结：

本文提出的鲁棒视觉语义嵌入（RVSE）技术通过语义保留增强，显著提高了图像文本检索的鲁棒性和性能。

Pedestrian Attribute Editing for Gait Recognition and Anonymization

发布时间：2023-03-09

作者：Jingzhe Ma, Dingqiang Ye, Chao Fan, Shiqi Yu

中文摘要：

作为一种生物识别技术，行人步态信息因其能够在不依赖目标合作的情况下从远处获取而受到工业和学术界的广泛关注。在近期的研究文献中，这一领域的研究既带来了令人兴奋的机会，也带来了令人警觉的挑战：积极的一面是，用于安全应用如嫌疑人检索和安全检查的步态识别变得越来越有前景。消极的一面是，步态信息的滥用可能导致隐私问题，因为违法者即使在戴口罩和更换衣物的情况下，也可以利用步态特征追踪感兴趣的对象。为了处理这把双刃剑，我们提出了一种名为GaitEditor的步态属性编辑框架。该框架能够在保持视觉真实性的同时，对真实步态序列进行不同程度的属性编辑，分别用于步态数据增强和去标识化，从而根据用户意图自适应地增强或降低步态识别性能。在实验中，我们在三个广泛使用的步态基准上对步态识别和匿名化协议进行了全面的评估。许多结果说明，GaitEditor的适应性利用有效地提高了步态识别性能，并通过去标识化生成了生动的可视化效果，以保护人类隐私。据我们所知，GaitEditor是第一个能够在同时提高步态识别和步态匿名化效益的同时编辑多个步态属性的框架。GaitEditor的源代码将在https://github.com/ShiqiYu/OpenGait上提供。

一句话总结：

GaitEditor是一种能够同时提高步态识别性能和实现步态匿名化的新型步态属性编辑框架。

发布时间：2023-03-01

作者：Zheng Yuan, Qiao Jin, Chuanqi Tan, Zhengyun Zhao, Hongyi Yuan, Fei Huang, Songfang Huang

中文摘要：

本文针对生物医学视觉问答（VQA）领域数据有限的问题，提出了一种名为RAMM的检索增强预训练和微调范式。具体来说，我们收集了一个名为PMCPM的新生物医学数据集，该数据集包含来自PubMed的患者图像-文本对，涵盖了多样化的患者情况。然后，我们对生物医学多模态模型进行预训练，以学习图像-文本对的视觉和文本表示，并通过图像-文本对比目标（ITC）对这些表示进行对齐。最后，我们提出了一种检索增强方法，以更好地利用有限的数据。我们基于预训练数据集的ITC检索相似图像-文本对，并引入了一个新颖的检索注意力模块，以融合图像和问题的表示与检索到的图像和文本。实验表明，我们的检索增强预训练和微调范式在Med-VQA2019、Med-VQA2021、VQARAD和SLAKE数据集上取得了最先进的性能。进一步的分析显示，所提出的RAMM和PMCPM与先前资源和方法的比较中，可以增强生物医学VQA的性能。我们将开源我们的数据集、代码和预训练模型。

一句话总结：

本文提出了一种名为RAMM的检索增强预训练和微调范式，有效提升了生物医学视觉问答的性能。

发布时间：2023-03-01

作者：Ritesh Sarkhel, Arnab Nandi

中文摘要：

视觉丰富的文档（例如传单、横幅、杂志文章）是利用视觉线索来增强其语义的物理或数字文档。这些文档中包含的信息是临时的并且往往是不完整的。现有的能够对这些文档进行结构化查询的工作并没有考虑到这一点。这使得从查询这些文档中检索到的信息难以进行上下文关联，并且难以从中获取可操作的见解。我们提出了Juno——一个跨模态实体匹配框架来解决这一局限性。它通过将文档中的文本跨度与外部数据库中语义相似的元组进行匹配，为异构文档添加补充信息。我们在这个方面的主要贡献是一个具有注意力的深度神经网络，它超越了传统的基于关键词的匹配，通过在多模态编码空间中对文本跨度和关系元组进行对齐来找到匹配的元组，而不需要关于文档类型或底层模式的任何先验知识。在多个真实世界数据集上的全面实验表明，Juno可以泛化到具有不同布局和格式的异构文档。它比最先进的基线高出超过6个F1点，并且需要的人标签样本减少高达60%。我们的实验进一步表明，Juno是一个计算上稳健的框架。我们只需训练一次，然后就可以动态地适应多个资源受限的环境，而不会牺牲其下游性能。这使得它适合在各种边缘设备上的设备部署。据我们所知，我们的这项工作是第一个研究视觉丰富文档的信息不完整性，并提出了一种可泛化、性能优异且计算上稳健的框架，以端到端的方式解决这一问题。

一句话总结：

Juno是一种跨模态实体匹配框架，能够处理视觉丰富文档的信息不完整性，通过深度神经网络实现高效且可泛化的信息检索。

Retrieval Augmented Generation - 2023年03月

RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation

中文摘要：

一句话总结：

Picture that Sketch: Photorealistic Image Generation from Abstract Sketches

中文摘要：

一句话总结：

InferFix: End-to-End Program Repair with LLMs

中文摘要：

一句话总结：

Semantic-Preserving Augmentation for Robust Image-Text Retrieval

中文摘要：

一句话总结：

Pedestrian Attribute Editing for Gait Recognition and Anonymization

中文摘要：

一句话总结：

RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training

中文摘要：

一句话总结：

Cross-Modal Entity Matching for Visually Rich Documents

中文摘要：

一句话总结：