基于内容的视频聚类及检索研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:youxiang123hao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频数据通常有两个层次:镜头和场景.一个镜头被定义为一些连续的帧,表达了在时间上和空间上连续的内容.一个场景被定义为一些内容上相关的镜头的集合.把镜头通过聚类的方法形成为场景是构造场景很自然的方法,视频数据的聚类对于视频的摘要、浏览和检索是很重要的问题.该文认为视频聚类是把相似的原始视频数据按照确定的相似度测量准则进行聚集,形成更高一级的视频语义层次,以便于对视频数据进行组织、浏览、建立索引、查询和摘要等视频处理的分析方法.该文首先论述和分析了基于内容对视频数据进行聚类涉及到的一些关键技术如:基于距离的聚类分析技术、视频数据特征的提取技术、视频镜头的分段技术、视频镜头关键帧提取技术、视频帧及镜头相似度测量技术等.文中介绍了两种基于颜色空间的帧间距离计算方法,然后基于对这两种方法的分析,提出一种基于分块主色的帧间距离的计算方法,并与上述两种帧间距离计算方法进行了对比实验,然后详细分析了视频镜头聚类对关键帧提取的要求,并基于这种分析,采用了非相邻帧比较的关键帧提取算法.提出了关键帧持续时间的概念,以满足视频镜头聚类的需要.基于以上帧间相似度和关键帧提取算法,该文提出一种基于关键帧持续时间的镜头相似度计算模型.该文使用上述方法对视频镜头进行聚类,并展示了聚类的结果.该文最后简要分析了COM的概念、结构和特征,以及基于COM架构的DirectShow组件的体系结构和使用方法.然后介绍了基于COM架构的DirectShow组件实现视频处理的方法.在此基础上,该文提出了一种基于COM架构的视频聚类系统框架,并用此框架实现了该文提出的视频聚类及检索原型系统(VCRS-1).
其他文献
纹理合成是当前计算机图形学、计算机视觉和图像处理领域的研究热点之一。纹理合成大体上可以分为纹理映射(Texture Mapping)、过程纹理合成(Procedural Texture Synthesis)和基
近几年来,Peer-to-Peer(简称P2P)作为一种新型的网络应用模式以其可扩展性、高度容错性等突出优点变得越来越流行.搜索机制作为P2P应用的核心技术,主要解决的问题是在P2P这种
数据挖掘,就是从大规模的数据集中提取潜在的、隐含的、有价值的知识、模式或规则的过程。从大规模的数据集中挖掘的模式一般可以分为五类:关联规则、分类和预测、聚类、演变分
互联网是一个巨大的知识库,互联网中的知识信息具有海量,分布,异构和更新速度快等特点。对互联网知识进行提取和整合,建立领域知识库,能够有效帮助用户更全面更准确地查询和了解相
具有诸多优点的云计算已经成为不可逆转的IT服务趋势,但在发展与应用中面临众多挑战。挑战之一是建立有效的云计算服务安全性的量化评估方法,另外是设计相应的访问控制模型,以满
矢量图元在虚拟现实系统中具有十分重要的意义。矢量图图元主要包括点、线、多边形以及由这三种图元复合构成的复杂图元,虚拟场景下,需要将这些图元分别表示编辑。矢量的编辑表
小波变换理论作为一种新兴的时(空)—频域分析理论,在被用于图像处理时,具有其它信号处理手段不具有的优越性.其中小波理论中的多分辨分析更加符合人类的视觉机制,与计算机视
人耳具有结构稳定丰富、不受面部表情的影响、更容易采集、更容易为人接受、不容易欺骗等优点,因此人耳识别正在成为生物特征识别领域中的又一热点.目前人耳识别正处于起步阶
该文基于VRM L实现了多晶体晶粒三维形貌仿真结果可视化.首先,对凝固组织微观模拟的各种方法进行了探讨,以寻求合理的物理数学模型;其次,将确定性模拟方法和随机性模拟方法相
基于实例的机器翻译(EBMT)系统在特定领域下可以高效地生成准确的译文,并且翻译知识可以自动获取,系统构建周期短.所以研究基于实例的机器翻译模型对基于语料库的机器翻译方