Retrieval Augmented Generation - 2022年07月

发布时间：2022-07-29

作者：Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao

中文摘要：

本文研究了生成文本-图像对以提升细粒度图像到文本的多模态检索任务训练的一个开放性研究问题，并提出了一种通过揭示StyleGAN2模型隐藏语义信息的新型配对数据增强框架。具体来说，我们首先在给定数据集上训练一个StyleGAN2模型。然后，我们将真实图像投影回StyleGAN2的潜在空间以获得潜在码。为了使生成的图像可操作，我们进一步引入了一个潜在空间对齐模块来学习StyleGAN2潜在码与相应的文本描述特征之间的对齐。在进行在线配对数据增强时，我们首先通过随机替换标记生成增强文本，然后将增强文本输入到潜在空间对齐模块以输出潜在码，这些潜在码最终被输入到StyleGAN2中以生成增强图像。我们在两个公开的多模态检索数据集上评估了我们的增强数据方法的有效性，其中令人鼓舞的实验结果表明，增强的文本-图像对数据可以与原始数据一起训练，以提升图像到文本的多模态检索性能。

一句话总结：

本文提出了一种基于StyleGAN2的文本-图像对数据增强方法，通过揭示模型隐藏语义信息，有效提升了细粒度图像到文本的多模态检索性能。

Persona-Knowledge Dialogue Multi-Context Retrieval and Enhanced Decoding Methods

发布时间：2022-07-28

作者：Min Sik Oh, Min Sang Kim

中文摘要：

本文提出了一种名为“Persona和Knowledge双重语境开放域聊天”的新型对话生成任务。虽然“Persona”和“Knowledge”各自都是开放域对话中的有趣语境，但两者的结合尚未得到充分研究。在本文中，我们解决了Persona-Knowledge识别和响应生成任务。我们设计了一种与神经问答检索模型兼容的有信息数据增强策略。利用增强后的数据，我们进行了Persona-Knowledge的排列评估和连续的Persona搜索微调。此外，我们还使用了各种解码技术进行对话生成，并说明了关键要素。在官方指标上，我们实现了SOTA（最先进的技术），平均Grounding准确率达到93.99%，SacreBLEU得分为23.62。

一句话总结：

本文提出了一种结合Persona和Knowledge双重语境的开放域聊天对话生成方法，通过数据增强和模型微调，实现了在官方指标上的最先进性能。

Retrieval-Augmented Transformer for Image Captioning

发布时间：2022-07-26

作者：Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

中文摘要：

图像标题模型旨在通过提供输入图像的自然语言描述来连接视觉和语言。在过去的几年中，这一任务通过学习参数模型、提出视觉特征提取的进步或通过建模更好的多模态连接来解决。在这篇论文中，我们研究了具有kNN记忆的图像标题方法的发展，该方法可以从外部语料库检索知识以辅助生成过程。我们的架构结合了一个基于视觉相似性的知识检索器、一个可微编码器和一个kNN增强的注意力层，以基于过去的上下文和从外部记忆检索到的文本来预测标记。在COCO数据集上进行的实验结果表明，使用显式的外部记忆可以辅助生成过程并提高标题质量。我们的工作为在更大规模上改进图像标题模型开辟了新的途径。

一句话总结：

本研究提出了一种结合外部记忆和kNN记忆的图像标题方法，通过利用视觉相似性和可微编码器来提高标题生成质量。

Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

发布时间：2022-07-26

作者：Robin Rombach, Andreas Blattmann, Björn Ommer

中文摘要：

最近，新颖的架构在生成图像合成方面取得了显著进步，在各种任务中实现了卓越的视觉质量。特别是“AI-Art”领域，随着像CLIP这样的强大多模态模型的出现，经历了前所未有的增长。通过结合语音和图像合成模型，所谓的“提示工程”已经建立，其中精心选择和组成的句子被用来在合成的图像中实现某种视觉风格。在这篇论文中，我们提出了一种基于检索增强扩散模型（RDMs）的替代方法。在RDMs中，每个训练实例在训练过程中从外部数据库中检索一组最近邻，扩散模型基于这些信息样本进行条件化。在推理（采样）过程中，我们将检索数据库替换为包含例如仅包含特定视觉风格图像的更专业化的数据库。这为在训练后提示一个通用训练模型并提供了一种新的方式，从而指定特定的视觉风格。我们的实验表明，这种方法优于在文本提示中指定视觉风格。我们在https://github.com/CompVis/latent-diffusion上开源了代码和模型权重。

一句话总结：

本文提出了一种基于检索增强扩散模型的新方法，通过使用特定视觉风格的图像数据库来提示训练后的模型，从而实现更精确的视觉风格控制。

Can large language models reason about medical questions?

发布时间：2022-07-17

作者：Valentin Liévin, Christoffer Egeberg Hother, Andreas Geert Motzfeldt, Ole Winther

中文摘要：

尽管大型语言模型（LLMs）通常能产生令人印象深刻的输出，但在需要强大推理技能和专家领域知识的现实场景中，它们的表现仍然不明确。我们旨在研究是否可以将开源和闭源模型（如GPT-3.5、LLama-2等）应用于回答和推理基于现实世界的难题。我们聚焦于三个流行的医学基准（MedQA-USMLE、MedMCQA和PubMedQA）以及多种提示场景：思维链（CoT，逐步思考）、少样本和检索增强。基于对生成的思维链的专家标注，我们发现InstructGPT通常能够阅读、推理和回忆专家知识。最后，通过利用提示工程（少样本和集成方法）的进步，我们证明了GPT-3.5不仅产生了校准的预测分布，而且在三个数据集上达到了及格分数：MedQA-USMLE 60.2%、MedMCQA 62.7%和PubMedQA 78.2%。开源模型正在缩小差距：Llama-2 70B也以62.5%的准确率通过了MedQA-USMLE。

一句话总结：

本研究探讨了大型语言模型在医学问答任务中的表现，发现GPT-3.5等模型在结合提示工程技术后，能够达到及格水平，并逐渐缩小与开源模型的差距。

On Curating Responsible and Representative Healthcare Video Recommendations for Patient Education and Health Literacy: An Augmented Intelligence Approach

发布时间：2022-07-13

作者：Krishna Pothugunta, Xiao Liu, Anjana Susarla, Rema Padman

中文摘要：

研究表明，大约三分之一的美国成年人使用互联网来诊断或了解健康问题。然而，这种在线获取健康信息的方式可能会加剧健康信息获取和使用的不平等。健康信息寻求行为（HISB）指的是个人寻求有关其健康、风险、疾病和健康保护行为信息的方式。对于在数字媒体平台上搜索健康信息的患者来说，他们自身的知识缺乏以及算法推荐都可能导致健康素养差异的加剧，其结果对弱势群体、少数族裔和低健康素养用户的影响尤为严重。本研究通过考察是否可以使用高级分析方法对YouTube社交媒体平台上关于慢性疾病（糖尿病）的大量视频及其元数据进行分析，以生成负责任和具有代表性的推荐，从而对上述挑战进行了探索性研究。该论文重点关注与使用视频进行糖尿病教育相关的演员人口统计学特征相关的偏见，这些视频是根据多个标准（如编码的医疗内容和其可理解性）检索和整理的，以解决患者的教育和人群健康素养需求。这种方法通过将医疗专业人员和患者的观点结合到一个可扩展和可推广的机器学习框架中，为在闭环中的人、增强智能、偏见感知和负责任算法推荐方面提供了巨大的创新机会，以实现患者赋权和改善健康结果。

一句话总结：

本研究探索了利用高级分析方法和机器学习框架，通过整合医疗专业人员和患者的视角，生成针对糖尿病患者的负责任和具有代表性的健康信息推荐，以减少健康信息获取和使用的不平等。

Multi-Task Retrieval-Augmented Text Generation with Relevance Sampling

发布时间：2022-07-07

作者：Sebastian Hofstätter, Jiecao Chen, Karthik Raman, Hamed Zamani

中文摘要：

本文研究了针对知识密集型任务的检索增强生成模型的多元任务训练。我们提出利用知识密集型生成的一个独特属性：查询-答案对与知识库中条目的关联性来清洗训练集。我们通过置信度阈值过滤训练示例，判断一对是否可由知识库解答。在KILT基准的七个组合任务上训练了一个单一的Fusion-in-Decoder（FiD）生成器。实验结果表明，我们的简单而有效的方法显著提高了两个高度不平衡任务的竞争基线；并且在剩余的任务上显示出较小的改进或无显著下降。此外，我们还证明了我们的多元任务训练，通过相关性标签采样，随着模型容量的增加而具有良好的扩展性，并在七个KILT任务中的五个任务上达到了最先进的成果。

一句话总结：

本文提出了一种基于知识库关联性的训练集清洗方法，通过多元任务训练显著提高了检索增强生成模型在知识密集型任务上的性能。

Retrieval Augmented Generation - 2022年07月

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval

中文摘要：

一句话总结：

Persona-Knowledge Dialogue Multi-Context Retrieval and Enhanced Decoding Methods

中文摘要：

一句话总结：

Retrieval-Augmented Transformer for Image Captioning

中文摘要：

一句话总结：

Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

中文摘要：

一句话总结：

Can large language models reason about medical questions?

中文摘要：

一句话总结：

On Curating Responsible and Representative Healthcare Video Recommendations for Patient Education and Health Literacy: An Augmented Intelligence Approach

中文摘要：

一句话总结：

Multi-Task Retrieval-Augmented Text Generation with Relevance Sampling

中文摘要：

一句话总结：