Retrieval Augmented Generation - 2020年02月

Unsupervised Temporal Feature Aggregation for Event Detection in Unstructured Sports Videos

发布时间：2020-02-19

作者：Subhajit Chaudhury, Daiki Kimura, Phongtharin Vinayavekhin, Asim Munawar, Ryuki Tachibana, Koji Ito, Yuki Inaba, Minoru Matsumoto, Shuji Kidokoro, Hiroki Ozaki

中文摘要：

本文研究了在非结构化环境中对体育视频进行事件检测的问题，其中涉及任意角度的摄像机。从结构化到非结构化视频分析的转变带来了多个挑战，本文针对这些问题进行了研究。具体来说，我们识别并解决了两个主要问题：在非结构化环境中进行无监督的球员识别，以及将训练模型泛化到由于任意拍摄角度引起的姿态变化。对于第一个问题，我们提出了一种使用人物重识别特征进行时间特征聚合的算法，通过增强弱启发式评分方法来提高球员检索的精确度。此外，我们提出了一种基于多模态图像翻译模型的数据增强技术，以减少训练样本外观的偏差。实验评估表明，我们提出的方法将斜角视频的球员检索精度从0.78提高到了0.86。此外，在乒乓球视频中，我们提出的球员级特征将回合检测的F1分数从使用全局帧级特征的0.79提高到了0.89。请参阅补充视频提交，链接为https://ibm.biz/BdzeZA。

一句话总结：

本文提出了一种针对非结构化体育视频的事件检测方法，通过改进球员识别和模型泛化，显著提升了检测精度。

Pre-Training for Query Rewriting in A Spoken Language Understanding System

发布时间：2020-02-13

作者：Zheng Chen, Xing Fan, Yuan Ling, Lambert Mathias, Chenlei Guo

中文摘要：

查询重写（Query rewriting，简称QR）是一种越来越重要的技术，用于减少由语音语言理解管道中的错误引起的客户摩擦，这些错误可能源自语音识别错误、语言理解错误或实体解析错误等多种来源。在本工作中，我们首先提出了一种基于神经检索的查询重写方法。随后，受到预训练上下文语言嵌入广泛成功的启发，并且作为一种补偿查询重写训练数据不足的方法，我们提出了一种基于语言模型（Language Modeling，简称LM）的方法，在历史用户与语音助手的对话数据上预训练查询嵌入。此外，我们提出使用语言理解系统生成的NLU（Natural Language Understanding）假设来增强预训练。我们的实验表明，预训练提供了丰富的先验信息，有助于查询重写任务实现强大的性能。我们还展示了与NLU假设的联合预训练具有进一步的益处。最后，在预训练之后，我们发现只需要一小部分重写对就足以通过在所有QR训练数据上全量训练来微调QR模型，从而超越一个强大的基线。

一句话总结：

本研究提出了一种基于预训练的查询重写方法，通过利用历史对话数据和NLU假设，显著提升了查询重写任务的性能。