论文部分内容阅读
随着网络技术和多媒体技术的快速发展,多媒体已经成为人们日常获取信息最重要的手段之一,而这其中,视频由于集视觉与听觉一体的特性而大受人们喜爱。随着互联网视频数据的急剧增长,如何在海量视频数据中快速准确地找到自己想要的信息已经成为人们目前面临的一个巨大挑战,传统的通过人工手动对视频进行标注的查询方法面对日益增长的视频数量已经力不从心,基于多特征的视频检索技术成为目前的研究热点。基于多特征的视频检索的主要步骤分为:镜头边界检测、镜头关键帧提取、视频检索等技术。本文主要对镜头边界检测、镜头关键帧、视频检索技术三个方面进行研究。目前,在镜头边界检测方面,现有算法主要有以下几个缺点:提取单一特征,不能充分表达视频内容。对于渐变镜头的检测准确率不高,而且不能在高效性和准确性之间取得平衡。在关键帧提取方面,现有算法以聚类算法为主,然而聚类算法存在着需要人工设定初始聚类中心、需要人工设定聚类数量的缺点。在视频检索方面,现有算法在特征提取的方式、视频相似性度量方面的准确性仍需提高。针对镜头边界提取、镜头关键帧提取、视频检索技术存在的不足,本文进行了以下工作:(1)在镜头边界提取方面,提出一种基于SURF和SIFT特征的镜头分割算法。算法分为初检和复检两个步骤。在初检中,首先提取帧图像的HSV颜色直方图。进行临近帧的切变帧判断。然后提取SURF特征并融合颜色特征,对邻近帧进行切变帧复判,根据切变帧的过渡时间与渐变帧不同的特点,通过使用双阈值结合改进的可变滑动窗口结合的方式得到镜头边界候选帧,最后,将得到的候选帧集合利用SIFT特征结合双阈值与滑动窗口技术进行复检,最后得到最终的镜头变换帧。实验数据表明,本算法能够有效地识别并区分切变镜头和渐变镜头,其准确性高于文献算法。(2)提出了一种基于改进K-Means聚类算法的关键帧提取算法,基于细胞吞噬作用的思想。利用图像熵作为聚类的依据,将每一个关键帧自底向上地,不断地对关键帧所在类进行合并操作,合并的条件基于近邻的思想,最后在得到的类中,利用镜头边界法按固定频率采集帧作为关键帧。实验数据表明,该方法解决了 K-Means缺点,不需要人工设定初始聚类中心、聚类数量,并且提取出的关键帧具有较强的代表性,其准确性高于文献算法。(3)在研究了上述镜头分割与关键帧提取算法的基础上,提出了一种基于SURF和改进的颜色特征的视频检索算法,首先对待匹配图像分块并提取图像的颜色特征和SURF特征将其融合,利用滑动窗口技术对待检图像进行匹配,遍历关键帧序列得到的匹配距离最小的窗口的距离作为待检图像与视频的实际距离,最后遍历视频库找到距离最小的视频,实验表明该方法通过多个特征融合以及滑动窗口的配合,使得本文算法平均准确率为96%,高于文献的算法,具有较高的准确性。综上所述,实验结果证明本文所提出的算法可以准确高效地提取视频文件的镜头边界、和镜头关键帧并在此基础之上实现精确的视频检索。