论文部分内容阅读
视频显著性检测通过模拟人眼注意力机制,将视频段中最吸引人注意的区域或物体检测出来,从而将有限的计算机硬件资源分配给更重要的区域。当前主流的视频显著性检测的方法主要采取传统手工方式,利用底层信息(颜色,边缘等)对比计算视频显著性结果,由于缺乏高层语义信息对底层细节信息的指导,检测结果精度不能满足实际检测精度要求。得益于近些年快速发展的深度学习网络能够自动计算底层信息和高层语义特征,基于深度学习网络或半深度学习网络(深度学习与传统方式结合)的方式在计算机视觉领域得到了快速发展,然而利用这两种方案计算视频显著性检测的研究目前仍处于起步阶段,主要原因是缺乏能够用于训练深层网络的视频数据集,以及缺乏时空信息结合的有效方案。因此,本文探索了两种提升视频显著性检测精度的方式,即深度学习方式与半深度学习方式,提出了如下解决方案:(1)提出了一种“长距离”时空特征建模方案。由于缺乏长期的信息,传统的检测方法往往只利用短期的时空信息,既会出现间歇性运动引起的“空洞效应”,也会出现外部干扰引起的“虚假检测”。本方案提出的网络旨在从高质量的低水平显著性检测(LS)中揭示LSTI,该显著性检测方案可以使用新设计的快速质量评估(FQA)方案通过在SIFT-Flow引导下进行非局部帧间比对来表征。其次,本网络利用一个新的深度显著性检测框架,充分利用现有的LSTI,在保持强时空显著性一致性的前提下,学习面向显著前景的判别信息,以实现高性能的视频显著性检测。(2)提出了一种快速时空特征“全交互”式深度学习方案。目前主流的视频显著性分析方法主要是从两个独立空间和时间分支检测。作为一个互补的组成部分,时间分支的主要任务是间歇性地将空间分支集中在那些具有显著运动的区域。这样,尽管整体视频显著性质量在很大程度上依赖于其空间分支,但是时间分支的性能仍然很重要。因此,如何进一步有效地提高这些分支的性能是提高整体视频显著性的关键。在方案中,我们提出了一种新颖的时空网络,以完全交互的方式实现这种改进。我们将一个轻量级的时间模型整合到空间分支中,粗略地定位那些与可信显著运动相关的空间显著区域。本文的方法容易实现且有效,实现了高质量的视频显著性检测,通过与代表性方法进行定性、定量分析以及在不同数据及上的表现,表明本文提出的方法达到了领先的精度。