论文部分内容阅读
随着多媒体和网络技术的发展,网络视频信息已成为日常工作和生活的重要信息来源。如何在大量视频中快速、准确地进行信息检索成为多媒体技术发展中的一个核心问题。基于内容的视频检索(CBVR)被普遍认为是解决这一问题的主要途径,它在视频点播、数字图书馆、交互式电视、多媒体数据库等领域具有重要的应用价值。视频内容的结构化是基于内容的视频检索的基础,而在众多的视频信息中,新闻是一类重要的视频,因此本文的目的是研究新闻视频内容结构化的理论和方法,即从原始的视频流出发,经过镜头边缘检测、主持人镜头识别、广告定位等多个步骤,最终得到一系列独立的新闻故事,以及该新闻故事的关键帧和主题字幕文本。本文的整个结构化过程结合了视频、音频和文本三个方面的信息。文中对镜头边缘检测、主持人镜头识别、广告定位和主题字幕获取四个关键步骤进行了深入讨论,其中的主要创新点为:
第一,提出基于熵的dissolve镜头渐变检测。在镜头边缘检测时,因为在dissolve边缘的前后若干连续帧中,两个镜头的图像是相互重叠且逐渐变化的,所以检测准确率较低。本文提出的基于熵的dissolve检测利用图像的循环移位消除镜头内物体运动的影响,用熵作为检测标准。采用同一个检测标准,不同的检测规则,同时检测镜头切换中常见的各种渐变和骤变,有效地降低了镜头边缘检测的复杂度,提高了检测准确率。
第二,利用音频和视频信息进行广告定位。在新闻视频结构化过程中,商业广告也作为一个独立的故事出现,但是它们往往是我们不关心的。现有的广告检测常利用视频的特殊信息,如黑帧,广告的反复出现等。本文中利用音频和视频两方面的信息减少了对广告具体特征的依赖,对广告的开始和结束位置进行精确定位。