论文部分内容阅读
随着广播电视事业的不断发展,广播电视行业积累了大量的多媒体数据。一方面,由于缺乏有效的电视节目结构信息和内容标注,人们很难从海量的广播电视多媒体数据中快速准确的查找到需要的信息。另一方面,因行业和受众的不同,广播电视多媒体数据历经多年的发展形成了一些不同于其他多媒体数据的特点。因此,亟需研究针对广播电视多媒体数据的分析技术,以辅助人们方便地对广播电视数据进行管理。本文以广播电视多媒体数据为研究对象,以节目层结构分析和视觉内容检索为立足点,深入研究了音视频模板匹配技术、重复序列检测技术、相似图像检索技术和台标识别技术等。本文的主要工作和贡献如下:
1.提出了一种新的视频指纹特征—全局二值模式(Global Binary Patterns)特征。该特征采用了结构和统计相结合的分析方法,在图像的局部计算统计信息保留了统计特征的鲁棒性,在全局上计算结构信息增强了特征的区分性。实验结果表明,相比传统特征,该特征取得了更高的平均检索精度,且对广播视频中的多种图像噪音都具有较强的鲁棒性。在此基础上,通过对广播电视音视频内容特点的分析,提出了一种融合音频和视觉信息的模板匹配框架,并应用于节目检索中。和单模态的方法相比,提出的框架同时利用了两种模态特征的信息,从而提高了节目检索的准确率。
2.提出了一种鲁棒的在广播电视流中检测重复序列的方法。该方法将重复序列检测问题形式化为隐马尔科夫模型的解码问题。通过定义状态转移之间的约束来松弛传统检测算法中的严格时间一致性条件,以期抵抗片段之间的漏匹配问题。在此基础上定义了待检测的目标为“最长松弛连接序列”,并采用一种近似维特比算法进行检测,使得可以从多条冗余状态序列中选择最优序列,从而降低误报。实验表明,提出的方法有效的提高了重复序列检测的准确率和召回率。除此之外,为了解决实际应用中复杂的节目重复模式问题,提出了重复序列检测算法应用于广播电视流中重复节目检测的三个基本原则:独立出现原则、最长重复原则和等价原则。实验表明应用提出的检测原则的方法能很好的检测重复出现的节目。
3.提出了一种基于视觉词组的相似图像检索方法。该方法首先将近邻空间上独立的视觉词组合构成视觉词组的候选,然后根据提出的“与图像相关的视觉词组选择策略”为每幅图片选择并保留合适视觉词组,以期降低视觉词组的冗余。另外,在度量视觉词组之间的相似性时,提出了视觉词组的“空间相似性度量”。通过定量地刻画视觉词之间的空间相对位置信息,并融入到视觉词组的相似性度量中,提高了视觉词组度量的区分性。和传统的基于视觉词组的图像检索方法相比,提出的两种改进方法在公共数据集Ukbench和广播电视数据集TRECVID上都很大地提高了检索的性能。
4.研究了两种不同的台标识别方法:基于图像匹配的方法和基于分类器的方法。对于前一种方法中,将Chamfer匹配算法引入到台标识别中。与传统的只描述形状的基于图像矩的方法相比,由于Chamfer匹配方法对台标的形状和位置都敏感,因而可以获得更加准确的匹配效果。对于第二种方法,实现了一种基于人工神经网络的台标识别方法,并与基于Chamfer匹配的方法在不同的训练和测试条件下进行了对比实验,分析了两种方法的性能特点和优缺点。
本文的主要成果已经成功地应用于广播电视内容综合监测系统中,取得了较好的经济效益和社会效益。