基于多模态特性的运动视频语义分析技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:jurenyaoyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的不断发展,互联网数据已呈现出规模海量化、表现形式多样化的趋势。运动视频作为一种重要的互联网数据类型,因其庞大的数据量,给信息的传输、存储以及管理造成了很大的困难。传统的文本数据处理方法既需要消耗大量的人力,也无法充分利用视频中包含的丰富信息。为此,人们提出了多种基于内容的视频语义分析技术,这些技术已在视频检索、索引、查询中发挥关键作用。近年来,国内外学者在提取视频语义方面提出了许多较为实用和有效的算法。但是这些算法依然普遍存在较多问题,例如,算法设计过于复杂、计算量大;对特殊领域的特点和规则的依赖导致其应用受到局限;以及视频数据的多模态特性利用不充分等。因此,本文围绕上述问题开展了以有效提取视频语义为目的的研究,主要工作包括:1)提出了一种通用的、基于局部特征融合的视频语义分析方案。首先利用对噪声比较敏感的峰值运算来抑制噪声干扰,并辅助以形态学处理,提取包含所有运动像素的局部区域以及运动特征。然后,分别利用颜色直方图和灰度共生矩阵提取该局部区域内的颜色和纹理特征,并在实现这些局部特征的加权串联融合后,利用隐马尔科夫模型(Hidden Markov Models, HMM)完成视频内容的语义识别。仿真实验结果表明,该方案能够有效降低噪声干扰,充分利用视频数据的多模态特性,具有较好的分析准确性。2)提出了一种基于多特征和多模型的体育视频语义分析方案。首先,依据体育竞技场地相对固定、有规律的特点,提取视频镜头首帧图像的语义颜色特征,并结合支持向量机(Support Vector Machine, SVM)进行场景分类。这在细化了语义识别类型的同时,也降低了训练和检测的难度。然后,考虑到体育视频中的摄像机运动较为简单,在提取运动对象前后,分别进行图像配准和差分相乘处理,以实现运动特征较为准确的提取。最后,在对应场景的语义范围内利用HMM对镜头进行更细致的分类。仿真实验结果表明,该方案不仅能充分利用各类特征的属性,还能结合体育视频的特点,高效、多层次地实现了体育视频的语义识别。
其他文献
移动互联网被视为互联网技术与移动通信技术的结合体,具有移动性、私密性、融合性等特点,它的出现催生了一系列新型产业形态和商业模式,同时作为其内容的主要呈现设备,移动智能终
高速导弹制导雷达对地面或海面等复杂背景中的静止或慢速运动目标进行检测必须采用成像技术,制导雷达的搜索范围一般为飞行方向的前方区域,前视真实孔径成像以及成像过程中的运
随着嵌入式技术的不断发展,在嵌入式应用的不断增长以及嵌入式系统复杂性不断提高的情况下,调试阶段在整个系统开发过程中所占的比重越来越大。调试环境和调试技术直接影响软件
光突发交换被认为是未来很有前景的一种光交换技术,但由于缺乏成熟的光缓存技术,光突发交换存在突发竞争问题。竞争的结果只有一个突发包能够顺利传输,而其它竞争的突发包被丢弃
为了提升系统吞吐量、改善小区边缘用户的通信,LTE-Advanced中引入了中继技术。中继技术的引进使LTE-Advanced系统面临资源需求增加、干扰复杂化的问题,必须设计有效的资源分配
学位
随着大数据时代的到来,互联网中的数据呈爆炸式增长。在海量高维的数据中,实现快速最近邻搜索具有重大的现实意义。哈希算法因其快速有效性成为近邻搜索技术中的研究热点。哈
移动Ad hoc网络是一种自组织、无中心、拓扑动态变化、节点能量有限的多跳网络。它是下一代网络的重要组成部分,广泛应用于军事系统以及民用系统中。在移动Ad hoc网络中,链路的
随着图像/视频编辑处理工具的发展,普通用户都有可能对数字媒体进行篡改并恶意传播。面对日益严峻的信任危机,迫切需要行之有效的检测方法和技术,揭露篡改伪造操作行为。图像、
近年来,随着移动互联网的高速发展,现有的3G技术已不能满足人们对于高速率、低时延的要求。3GPP组织于2004年提出了LTE技术,并完成了进一步的研究和标准化工作。与3G技术相比,LTE