论文部分内容阅读
随着计算机处理能力日益增强,网络技术、多媒体技术的不断发展,随之而来的是大量的多媒体信息不断地产生。视频信息在多媒体信息中占最大比例,信息量最多,应用前景最广。由于视频信息属于非结构化信息,具有复杂、庞大和冗余的特点。因此,人们很难从海量的视频信息中找到自己所需的信息。
基于内容的视频检索技术(CBVR,Content-Based Video Retrieval)能有效地组织和管理这些数据,并按照多媒体数据的特性去存取这些数据,使人们能够方便地从大量视频数据中找到自己感兴趣的相关视频片段。视频的内容包括视频的结构信息、低层次的视觉和听觉信息以及高级语义信息。本文讨论了基于内容的视频检索的部分内容,主要包括镜头检测、关键帧的提取、镜头聚类等。
本文首先介绍了基于内容的视频检索技术产生的背景及发展现状,并对视频数据的特点,结构及其压缩原理进行了研究与总结。其次,本文介绍了将视频转化为连续图像帧序列的方法,并对检索系统的性能评价指标进行了总结。
镜头检测和关键帧的提取是本文的核心组成部分。这部分内容从介绍镜头变换的类型和特点入手,详细分析了目前几种典型的镜头检测方法,并对双重窗口的切变检测方法进行了实验验证。该方法能够很好的完成对存在切变视频的分割与组织。在此基础上,本文设计了一种基于帧间差的比较法,该方法利用图像的灰度分布像素统计直方图,通过计算相邻帧之间的帧间差,然后与阈值做比较,从而实现了镜头检测。通过多次的实验可以得出,此方法实现简单,而且能有效抑制噪声和物体运动所带来的干扰。本文列举了一段对新闻报道进行镜头检测的实验。此后,本文在参阅大量文献的基础上,对当前关键帧的提取方法及其相关技术进行了较为详细的讲解和总结,并设计了一种关键帧的提取方法,实现了关键帧的提取。该方法利用镜头检测后得到的镜头进行关键帧的提取,通过待选帧之间的差异距离与阈值相比较来确定关键帧。本文列举了两个镜头的关键帧提取实验,所提取的关键帧均能较好的反映镜头内容。该方法计算简单,利用它提取的关键帧具有代表性,能够比较全面的反映镜头内容。此外,本文对镜头聚类和视频数据索引的概念和方法进行了归纳。
最后,对全文进行了总结,并就视频检索领域今后面临的挑战和发展方向进行了分析和展望。