Retrieval Augmented Generation - 2020年10月

View-Invariant, Occlusion-Robust Probabilistic Embedding for Human Pose

发布时间：2020-10-23

作者：Ting Liu, Jennifer J. Sun, Long Zhao, Jiaping Zhao, Liangzhe Yuan, Yuxiao Wang, Liang-Chieh Chen, Florian Schroff, Hartwig Adam

中文摘要：

人体姿态和动作的识别对于自主系统与人交互至关重要。然而，相机通常以2D图像和视频的形式捕捉人体姿态，这会导致在不同视角下出现显著的外观变化，从而使得识别任务变得具有挑战性。为了解决这个问题，我们探索了从2D信息中识别3D人体姿态相似性的方法，这在现有工作中尚未得到充分研究。在这里，我们提出了一种从2D身体关节关键点学习紧凑的视角不变嵌入空间的方法，而不需要显式地预测3D姿态。由于2D姿态的投影和遮挡输入存在模糊性，难以通过确定性映射来表示，因此我们采用概率公式来构建我们的嵌入空间。实验结果表明，与3D姿态估计模型相比，我们的嵌入模型在检索不同相机视角下的相似姿态时达到了更高的准确率。我们还展示了通过训练一个简单的时序嵌入模型，我们能够在姿态序列检索中实现优越的性能，并大幅减少基于帧的嵌入堆叠的嵌入维度，以实现高效的大规模检索。此外，为了使我们的嵌入能够处理部分可见的输入，我们在训练过程中进一步研究了不同的关键点遮挡增强策略。我们证明了这些遮挡增强显著提高了对部分2D输入姿态的检索性能。在动作识别和视频对齐的结果表明，使用我们的嵌入而不进行任何额外训练，相对于专门针对每个任务训练的其他模型，实现了具有竞争力的性能。

一句话总结：

本文提出了一种基于2D关键点的姿态嵌入方法，通过概率模型和遮挡增强策略，实现了对3D姿态的高效识别和检索。

Neural Audio Fingerprint for High-specific Audio Retrieval based on Contrastive Learning

发布时间：2020-10-22

作者：Sungkyun Chang, Donmoon Lee, Jeongsoo Park, Hyungui Lim, Kyogu Lee, Karam Ko, Yoonchang Han

中文摘要：

大多数现有的音频指纹识别系统在用于大规模的高特定音频检索时存在局限性。在这项工作中，我们从音频的短单元段生成一个低维表示，并将此指纹与快速最大内积搜索相结合。为此，我们提出了一种对比学习框架，该框架源于段级搜索目标。训练过程中的每次更新都使用一个批次，该批次包含一组伪标签、随机选择的原始样本及其增强副本。这些副本可以通过应用小的时移和多种类型的失真（如背景噪声和房间/麦克风脉冲响应）来模拟对原始音频信号的影响。在段级搜索任务中，传统音频指纹识别系统通常失败的领域，我们的系统使用10倍更小的存储空间已经显示出有希望的结果。我们的代码和数据集可在\url{https://mimbres.github.io/neural-audio-fp/}找到。

一句话总结：

本研究提出了一种基于对比学习的音频指纹识别方法，通过低维表示和快速搜索，实现了高效的大规模音频检索。

Self-training Improves Pre-training for Natural Language Understanding

发布时间：2020-10-05

作者：Jingfei Du, Edouard Grave, Beliz Gunel, Vishrav Chaudhary, Onur Celebi, Michael Auli, Ves Stoyanov, Alexis Conneau

中文摘要：

无监督预训练在自然语言理解领域取得了显著的进展。在本文中，我们研究了自训练作为利用未标记数据通过半监督学习的一种新方法。为了获得特定任务的额外数据，我们引入了SentAugment，这是一种数据增强方法，它从标记数据中计算特定任务的查询嵌入，以从从网络上爬取的数十亿未标记句子库中检索句子。与之前的半监督方法不同，我们的方法不需要领域内的未标记数据，因此具有更广泛的应用性。实验表明，自训练在各种任务上都是对强大的RoBERTa基线的一种补充。我们的增强方法实现了可扩展和有效的自训练，在标准文本分类基准测试中提高了高达2.6%。最后，我们还展示了在知识蒸馏和少样本学习上的显著收益。

一句话总结：

本文提出了一种名为SentAugment的数据增强方法，通过自训练和半监督学习，有效利用未标记数据，显著提升了自然语言理解任务的表现。