基于深度强化学习的视频自动描述研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:sunman511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频作为互联网中最常见的媒体之一,是人们传递信息,分享生活的内容载体。相比于静态的图像,视频能够传递动态的更加丰富的内容。因此对视频内容进行分析的研究也逐渐成为计算机视觉研究领域的热点。视频自动描述任务的主要工作是将视频内容通过自然语言进行描述。该任务涉及视频图像分析及自然语言处理等相关技术。视频自动描述技术作为视频内容与简单文本之间转化的桥梁,在实际生活中可以进行广泛的应用。例如为视频检索,视频分类等应用增加先验信息,通过结合语音合成技术,使视障人士了解视频的内容等等。与图像描述不同,视频描述需要动态地从多帧中获取信息来生成自然语言的描述。这不仅需要正确识别视频中的对象,而且还需要识别其动态行为。然而由于互联网上大量的视频数据需要进行人工标注,增加了视频描述研究的额外工作,以及由于现有的方法还无法对视频动态特征进行有效建模等原因,视频自动描述技术在实际应用中仍存在很大的挑战。本文通过对近年来提出的视频描述模型进行研究,分析现有视频描述模型中存在的不足,在此基础上提出了一种新颖的基于策略学习的区域注意力视频描述模型,该模型分为策略定位网络以及区域注意力网络两个部分。具体的工作包含一下几个方面:(1)在对视频进行初步编码上选择预训练的VGGNet以及C3DNet等卷积神经网络,提取视频的深度特征,作为视频信息的初步表征。(2)采用强化学习中的策略梯度算法自适应学习定位策略来选取视频帧多个区域进行整合生成整体的场景表征。(3)为了保留视频的动态信息,采用注意力机制在时间维度上整合不同帧的区域特征,生成上下文特征。(4)通过长短期神经网络对上下文特征进行解码得到文本句子。由于模型是不可微分的,通过使用监督学习方法结合强化学习方法对定位策略以及整体网络参数进行更新。最后在两个大型视频基准数据集上评估模型的性能:MSVD和TACoS-MultiLevel。采用BLEU,METEOR以及CIDEr等指标来评定生成句子和真实句子间的相似性,通过结果显示在这两个数据集上我们的方法优于当前其他的先进方法。
其他文献
钱钟书的“化境”说对于我国翻译理论的影响相当重要,本文通过分析“化境”说与传统的“信、达、雅”以及“神韵”、“神似”论的相同和不同之处,指出其作为翻译理论的现实指
随着软件技术的进步和BIM系统的完善,越来越多的设计师使用数字化技术来辅佐设计和建造。通过介绍与分析一些使用数字化技术来辅佐设计的高层办公建筑来探索数字化技术对未来
刘渡舟教授精于伤寒学说,对经方运用有独到认识,善用柴胡剂类方,尤其精于肝胆病的辨证治疗,对急、慢性病毒性肝炎,迁延性肝炎,肝硬化等病积累了丰富的临床经验。拟对刘老治疗
目的:探讨肺部结核球的X线平片及CT的影像学表现,提高对肺部结核球的影像学诊断准确率。方法:对35例经胸部DR X线正侧位片发现肺部球形病灶的患者,再行胸部CT检查,把检查结果进
微带天线的固有窄带特性是限制其受到广泛应用的重要原因之一。运用寄生单元和引入空气间隙等技术,设计了一种适合Ku波段的宽频带高增益天线。微带天线的设计采用新颖的椭圆
阳春三月,万物复苏。当神州大地再度掀起学雷锋热潮之际,记者拜访了一位与雷锋有着不解2缘的人──我军离休干部、老新闻工作者连云山。这位曾于30年前首次向全国介绍雷锋事迹
目的:观察咪唑斯汀联合卡介菌多糖核酸治疗慢性湿疹的临床疗效和安全性。方法:272例各类皮肤病患者随机分为联合治疗组(n=154)和对照组(n=118),联合治疗组采用咪唑斯汀联合卡介茵多