Retrieval Augmented Generation - 2020年02月

Unsupervised Temporal Feature Aggregation for Event Detection in Unstructured Sports Videos

发布时间:2020-02-19

作者:Subhajit Chaudhury, Daiki Kimura, Phongtharin Vinayavekhin, Asim Munawar, Ryuki Tachibana, Koji Ito, Yuki Inaba, Minoru Matsumoto, Shuji Kidokoro, Hiroki Ozaki

中文摘要:

本文研究了在非结构化环境中对体育视频进行事件检测的问题,其中涉及任意角度的摄像机。从结构化到非结构化视频分析的转变带来了多个挑战,本文针对这些问题进行了研究。具体来说,我们识别并解决了两个主要问题:在非结构化环境中进行无监督的球员识别,以及将训练模型泛化到由于任意拍摄角度引起的姿态变化。对于第一个问题,我们提出了一种使用人物重识别特征进行时间特征聚合的算法,通过增强弱启发式评分方法来提高球员检索的精确度。此外,我们提出了一种基于多模态图像翻译模型的数据增强技术,以减少训练样本外观的偏差。实验评估表明,我们提出的方法将斜角视频的球员检索精度从0.78提高到了0.86。此外,在乒乓球视频中,我们提出的球员级特征将回合检测的F1分数从使用全局帧级特征的0.79提高到了0.89。请参阅补充视频提交,链接为https://ibm.biz/BdzeZA。

一句话总结:

本文提出了一种针对非结构化体育视频的事件检测方法,通过改进球员识别和模型泛化,显著提升了检测精度。


Pre-Training for Query Rewriting in A Spoken Language Understanding System

发布时间:2020-02-13

作者:Zheng Chen, Xing Fan, Yuan Ling, Lambert Mathias, Chenlei Guo

中文摘要:

查询重写(Query rewriting,简称QR)是一种越来越重要的技术,用于减少由语音语言理解管道中的错误引起的客户摩擦,这些错误可能源自语音识别错误、语言理解错误或实体解析错误等多种来源。在本工作中,我们首先提出了一种基于神经检索的查询重写方法。随后,受到预训练上下文语言嵌入广泛成功的启发,并且作为一种补偿查询重写训练数据不足的方法,我们提出了一种基于语言模型(Language Modeling,简称LM)的方法,在历史用户与语音助手的对话数据上预训练查询嵌入。此外,我们提出使用语言理解系统生成的NLU(Natural Language Understanding)假设来增强预训练。我们的实验表明,预训练提供了丰富的先验信息,有助于查询重写任务实现强大的性能。我们还展示了与NLU假设的联合预训练具有进一步的益处。最后,在预训练之后,我们发现只需要一小部分重写对就足以通过在所有QR训练数据上全量训练来微调QR模型,从而超越一个强大的基线。

一句话总结:

本研究提出了一种基于预训练的查询重写方法,通过利用历史对话数据和NLU假设,显著提升了查询重写任务的性能。