论文部分内容阅读
视频作为互联网中最常见的媒体之一,是人们传递信息,分享生活的内容载体。相比于静态的图像,视频能够传递动态的更加丰富的内容。因此对视频内容进行分析的研究也逐渐成为计算机视觉研究领域的热点。视频自动描述任务的主要工作是将视频内容通过自然语言进行描述。该任务涉及视频图像分析及自然语言处理等相关技术。视频自动描述技术作为视频内容与简单文本之间转化的桥梁,在实际生活中可以进行广泛的应用。例如为视频检索,视频分类等应用增加先验信息,通过结合语音合成技术,使视障人士了解视频的内容等等。与图像描述不同,视频描述需要动态地从多帧中获取信息来生成自然语言的描述。这不仅需要正确识别视频中的对象,而且还需要识别其动态行为。然而由于互联网上大量的视频数据需要进行人工标注,增加了视频描述研究的额外工作,以及由于现有的方法还无法对视频动态特征进行有效建模等原因,视频自动描述技术在实际应用中仍存在很大的挑战。本文通过对近年来提出的视频描述模型进行研究,分析现有视频描述模型中存在的不足,在此基础上提出了一种新颖的基于策略学习的区域注意力视频描述模型,该模型分为策略定位网络以及区域注意力网络两个部分。具体的工作包含一下几个方面:(1)在对视频进行初步编码上选择预训练的VGGNet以及C3DNet等卷积神经网络,提取视频的深度特征,作为视频信息的初步表征。(2)采用强化学习中的策略梯度算法自适应学习定位策略来选取视频帧多个区域进行整合生成整体的场景表征。(3)为了保留视频的动态信息,采用注意力机制在时间维度上整合不同帧的区域特征,生成上下文特征。(4)通过长短期神经网络对上下文特征进行解码得到文本句子。由于模型是不可微分的,通过使用监督学习方法结合强化学习方法对定位策略以及整体网络参数进行更新。最后在两个大型视频基准数据集上评估模型的性能:MSVD和TACoS-MultiLevel。采用BLEU,METEOR以及CIDEr等指标来评定生成句子和真实句子间的相似性,通过结果显示在这两个数据集上我们的方法优于当前其他的先进方法。