论文部分内容阅读
随着移动电话和其他定向相机设备的爆炸性增长,人们捕获和存储了越来越多的视频数据。由于大数据带来的信息冗余度高的可能性,人们希望能更加全面且智能的利用这些数据信息中信息量大的部分以及人们感兴趣的部分。由于多媒体时代视频的娱乐性以及微视频的流行发展,一种迫切的需求应运而生,即我们需要一种方法可以快速地浏览并理解视频中的内容。自动生成视频摘要是解决这些问题的有效技术之一,它能够提取简洁的摘要来代表原始的长视频,截取有效片段作为算法输出。这其中涉及两个问题:视频分割和摘要生成。以前的大多数工作都只是通过利用像边界检测这样的简单策略来来解决视频分割的问题。然而,这种方法产生的结果并不理想,因为它们不仅缺乏视频分割阶段的学习机制,而且还将整个任务分成两个独立的阶段。考虑到视频具有时间连续性,为了得到视频的有效片段,在视频处理的各个阶段我们不能忽略时间这一重要信息。经典的视频摘要算法已经逐步从非监督转向监督的机器学习上来,充分利用人类的自我认知来指导视频算法研究。在本文中,我们提出了一种新颖的视频摘要方法:基于结构传递驱动的时域子空间聚类分割(Summary Transfer Subspace Clusctering,STSC)。这是一种利用先验知识进行有监督的机器学习的视频摘要算法。首先从源视频中学习视频的结构信息,然后将得到的视频的结构矩阵传输到目标视频中,再利用结构矩阵做时域子空间聚类将视频进行时域上的分割,最后通过行列式点过程(Determinantal Point Process,DPP)算法,从分割出的片段中选择一个包含主要信息的镜头子集作为输出来创建最终的视频摘要。我们将本文提出的算法与已有的经典算法进行比较,在SumMe和TVSum数据集的实验结果验证了所提算法的有效性。