论文部分内容阅读
近年来,互联网视频数量呈爆炸式增长,浩如烟海。在如此海量的视频中,如何个性化、多样化地为用户查找所需要的视频;如何高效、及时地发现与识别未知有害内容的视频;如何让计算机准确地认知真实世界中的物体、活动,并精确地描述物体、活动间相关的时空关系,是视频内容理解领域的重点研究问题。视频中事件的识别和描述是解决上述问题的关键支撑技术。“事件(Events)”从本质上来说是一个融合了语言学和认知学的高层语义概念的状态变化,具有持续性、动态性、和多变性。国际视频检索评价机构(TRECVID)定义的视频事件识别与描述工作通常包括视频中物体、场景、活动等事件要素的确定和识别、视频中事件的识别、视频事件的自然语言描述。 然而,目前视频事件识别与描述面临着诸多难题需要解决,如:1)事件视觉差异性问题。视频中的物体、活动、场景等语义概念可以称为事件要素。与简单的语义概念相比,事件是蕴含逻辑推理的高层语义,在视觉上存在更大的差异。例如,参与同类事件的人物存在较大的穿着、身高等差异。事件发生的场景大不相同。因而同类事件的内在共性主要体现在含有语义知识信息的事件要素上。因此,如何在学习过程中融入事件定义,实现数据驱动和知识驱动的联合学习,是决定事件识别技术能否走向实用的关键问题之一;2)事件要素关系建模问题。视频是由时域上一系列相关的图像组成,与时间跨度较短的人的动作识别相比,视频中一个完整的事件包含了更为复杂的语义交互信息,如不同场景下的不同人和物的交互。事件中多种语义概念具有时空关联性,事件识别技术需要发现和提炼这些关联性;3)事件描述模糊的问题。当前的视频内容分析与理解技术只能分析与识别预先定义的、有限的语义概念,只能获得孤立的无逻辑关系的若干语义标签,无法对事件内容进行全面的自然语言描述。 针对以上难点与问题,根据视频内容以及事件的特点,理解视频中高层次语义级别的事件,并进行描述,需要探寻简单的静态、动态语义概念在某个高层次的语义事件下的关联关系,建模多种视觉特征之间相关或互补的关系,本文重点进行了以下三方面的研究:1)基于多知识库融合的显式事件要素挖掘。2)视觉数据驱动的隐式事件要素关联。3)融合视觉数据和语义知识的视频事件描述。 首先,本文提出了一种基于多知识库融合的显式的事件要素挖掘的方法。现有的单一知识库包含的概念、以及概念之间的语义关系有限,无法直接建立多种复杂的视频事件与知识库中概念的对应关系。因此,本文融合了现有多个语义知识库,并建立了以事件为中心的语义概念集合构成事件要素。首先,本文构建了一个以事件为导向的语义-视觉知识库,它构建了以事件为中心的语义概念关系。这一步骤中,采用成熟的FrameNet词汇知识库,将有完整定义的视频事件与FrameNet中的多个情境框架(Frame)相对应。将事件要素与FrameNet中的词汇单元相对应。之后,进一步融合ImageNet视觉知识库,使得FrameNet中的词汇单元的覆盖范围扩展为具有视觉信息的语义概念。最后,考虑到视频域和图像域数据的差异,本文设计了一个有效的跨模态事件要素检测器构成完整的视频事件识别系统。基于多知识库融合的事件识别方法以事件要素作为中层特征,从而缩小了底层视觉特征与高层视频事件间的语义鸿沟,大幅提高了视频中事件要素及完整事件的识别精度。 其次,本文提出了一种基于视觉数据深度学习的隐式事件要素关联方法。上述基于知识库的方法只能得到有限的、人工预先定义的语义概念。对于视频事件识别的灵活性、扩展性差。多种潜在的事件要素可以分为三类:人的活动、物体和场景。而视频数据中的主体信息即包含了活动、物体和场景,以及这些语义概念在时-空上的动态关联关系。因此,本文提出了一种数据驱动的深度学习架构,关联三种潜在的事件要素。首先,本方法无需显式地定义语义概念也不依赖预训练的语义概念检测器,用隐式的三种语义线索(latent semantics)代替有限的显式语义概念。其次,直接通过无监督的方法从视频数据中得到隐式的语义概念,并通过深度融合网络得到语义线索间的关系。该语义融合过程,可以推广到学习多种特征(多于两个)、多种语义线索之间的相关性;并且无监督的训练架构可以从大量未标记数据中学习得到语义的内在相关性,因此具有良好的灵活性、可扩展性。 最后,针对视频内容转化为自然语言时存在描述模糊问题,本文提出了融合视觉数据和语义知识的视频事件描述方法。传统的识别方法只能获得孤立语义标签,不能得到有逻辑关系的自然语言描述。本文视频事件描述的方法利用大量的标注语句获得语义知识,并且首次提出了一种基于当前语义状态而自适应地融合动、静视觉特征的方法,实现数据驱动和知识驱动的联合学习。该方法首先根据语义上下文信息自适应地选择视频中需要被关注的时间点。其次,根据语义知识动态融合静、动视觉特征,以达到用最适合的视觉信息,表征并识别最相关的语义概念。在多个数据库上显著提升了语言描述的准确性和精细度。