视频事件的识别与描述关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhp5211018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网视频数量呈爆炸式增长,浩如烟海。在如此海量的视频中,如何个性化、多样化地为用户查找所需要的视频;如何高效、及时地发现与识别未知有害内容的视频;如何让计算机准确地认知真实世界中的物体、活动,并精确地描述物体、活动间相关的时空关系,是视频内容理解领域的重点研究问题。视频中事件的识别和描述是解决上述问题的关键支撑技术。“事件(Events)”从本质上来说是一个融合了语言学和认知学的高层语义概念的状态变化,具有持续性、动态性、和多变性。国际视频检索评价机构(TRECVID)定义的视频事件识别与描述工作通常包括视频中物体、场景、活动等事件要素的确定和识别、视频中事件的识别、视频事件的自然语言描述。  然而,目前视频事件识别与描述面临着诸多难题需要解决,如:1)事件视觉差异性问题。视频中的物体、活动、场景等语义概念可以称为事件要素。与简单的语义概念相比,事件是蕴含逻辑推理的高层语义,在视觉上存在更大的差异。例如,参与同类事件的人物存在较大的穿着、身高等差异。事件发生的场景大不相同。因而同类事件的内在共性主要体现在含有语义知识信息的事件要素上。因此,如何在学习过程中融入事件定义,实现数据驱动和知识驱动的联合学习,是决定事件识别技术能否走向实用的关键问题之一;2)事件要素关系建模问题。视频是由时域上一系列相关的图像组成,与时间跨度较短的人的动作识别相比,视频中一个完整的事件包含了更为复杂的语义交互信息,如不同场景下的不同人和物的交互。事件中多种语义概念具有时空关联性,事件识别技术需要发现和提炼这些关联性;3)事件描述模糊的问题。当前的视频内容分析与理解技术只能分析与识别预先定义的、有限的语义概念,只能获得孤立的无逻辑关系的若干语义标签,无法对事件内容进行全面的自然语言描述。  针对以上难点与问题,根据视频内容以及事件的特点,理解视频中高层次语义级别的事件,并进行描述,需要探寻简单的静态、动态语义概念在某个高层次的语义事件下的关联关系,建模多种视觉特征之间相关或互补的关系,本文重点进行了以下三方面的研究:1)基于多知识库融合的显式事件要素挖掘。2)视觉数据驱动的隐式事件要素关联。3)融合视觉数据和语义知识的视频事件描述。  首先,本文提出了一种基于多知识库融合的显式的事件要素挖掘的方法。现有的单一知识库包含的概念、以及概念之间的语义关系有限,无法直接建立多种复杂的视频事件与知识库中概念的对应关系。因此,本文融合了现有多个语义知识库,并建立了以事件为中心的语义概念集合构成事件要素。首先,本文构建了一个以事件为导向的语义-视觉知识库,它构建了以事件为中心的语义概念关系。这一步骤中,采用成熟的FrameNet词汇知识库,将有完整定义的视频事件与FrameNet中的多个情境框架(Frame)相对应。将事件要素与FrameNet中的词汇单元相对应。之后,进一步融合ImageNet视觉知识库,使得FrameNet中的词汇单元的覆盖范围扩展为具有视觉信息的语义概念。最后,考虑到视频域和图像域数据的差异,本文设计了一个有效的跨模态事件要素检测器构成完整的视频事件识别系统。基于多知识库融合的事件识别方法以事件要素作为中层特征,从而缩小了底层视觉特征与高层视频事件间的语义鸿沟,大幅提高了视频中事件要素及完整事件的识别精度。  其次,本文提出了一种基于视觉数据深度学习的隐式事件要素关联方法。上述基于知识库的方法只能得到有限的、人工预先定义的语义概念。对于视频事件识别的灵活性、扩展性差。多种潜在的事件要素可以分为三类:人的活动、物体和场景。而视频数据中的主体信息即包含了活动、物体和场景,以及这些语义概念在时-空上的动态关联关系。因此,本文提出了一种数据驱动的深度学习架构,关联三种潜在的事件要素。首先,本方法无需显式地定义语义概念也不依赖预训练的语义概念检测器,用隐式的三种语义线索(latent semantics)代替有限的显式语义概念。其次,直接通过无监督的方法从视频数据中得到隐式的语义概念,并通过深度融合网络得到语义线索间的关系。该语义融合过程,可以推广到学习多种特征(多于两个)、多种语义线索之间的相关性;并且无监督的训练架构可以从大量未标记数据中学习得到语义的内在相关性,因此具有良好的灵活性、可扩展性。  最后,针对视频内容转化为自然语言时存在描述模糊问题,本文提出了融合视觉数据和语义知识的视频事件描述方法。传统的识别方法只能获得孤立语义标签,不能得到有逻辑关系的自然语言描述。本文视频事件描述的方法利用大量的标注语句获得语义知识,并且首次提出了一种基于当前语义状态而自适应地融合动、静视觉特征的方法,实现数据驱动和知识驱动的联合学习。该方法首先根据语义上下文信息自适应地选择视频中需要被关注的时间点。其次,根据语义知识动态融合静、动视觉特征,以达到用最适合的视觉信息,表征并识别最相关的语义概念。在多个数据库上显著提升了语言描述的准确性和精细度。
其他文献
本文结合实际课题—西安航空发动机公司计划信息系统的建设,研究了XML在企业INTRANET系统中的应用。提出了一种基于XML的五层模型,并实现了该模型。文中详细介绍了实现这种五层
图像中的物体检测作为一种重要的控制功能,受到越来越多的关注,特别是机器人视觉领域。控制计算机可以是一块芯片,可以是移动GPU或者其他具有控制功能的设备。深度学习应用在图
XML(eXtensible Markup Language)正在成为Web信息发布和交换的事实上的标准.最近,随着XML在各种应用中得到了广泛的使用,出现了各种XML查询语言和XML搜索引擎.然而,当前的XM
在文章中,分别从调度排队和资源预留两方面论述了在无线分组网上保证QoS的方法.文章中,首先对GPS,WFQ,WFQ等一系列信道状态无关的调度算法进行了比较和分析,然后对IWFQ,EWFQ
随着“互联网+”计划的提出,互联网与传统行业的结合变得日益紧密,高性能数据中心承载的业务种类也越来越多样化。多种业务通常采取不同的部署策略,从而引起网络流量模式地不断
该文主要叙述了基于CAN(控制器局域网)总线热网监控系统的设计及其监控主机软件的实现.该系统是一个工业现场的监控系统,适用于分布式供热网的换热首站,实现对热网首站的实时
空间数据库[1,3,4,5]在GIS[2]中的作用与地位越来越重要,并将成为GIS产业之争的主导者之一。空间数据信息不仅有一般属性信息的特征,还具有数据量大、多尺度等特性。因此为了高效
该文首先介绍了聚类分析定义,相关概念.之后对现有的聚类算法作了一个分类.并对各类算法作了简要的说明.该文重点讨论了基于图的算法:我们提出了一个基于图的聚类方法.它具有
该文主要研究了脉冲耦合神经网络(PCNN--Pulse Coupled Neural Network)的运行行为、离散PCNN的自动波传播特性和基于改进型PCNN的图像分割及其在图像压缩中的应用.首先分析
多体系统是由多个刚体或柔性体相互联结构成的通用机械系统模型,多体系统的分布式仿真、动态分析与优化等是目前机械系统计算机辅助分析研究的重要方向。 机械系统计算机辅