论文部分内容阅读
信息处理技术以及相伴而生的多媒体技术的发展促使视频数据以几何级数增长,面对如此海量的视频数据,对其进行有效地管理、组织和检索已经成为亟待解决的问题。目前已有的视频内容分析技术由于过于专注低层特征等视频中客观存在内容的提取和分析,对于更加宽泛的视频处理需求显得力不从心,因此对于高层语义信息处理和分析技术的研究显得尤为迫切。本文侧重对视频语义内容分析的通用方法进行研究,将视频的语义空间进行层次化的抽象,从视觉、听觉和文本三个模态空间对视频语义内容进行提取,综合利用提取的特定内容线索,实现对视频信息拟人类思维机制的语义描述,进而完成视频信息的分类和检索。本文的工作和创新点主要包括以下几个方面:1.通用视频内容分析技术研究:以多种类型的视频数据为研究对象,根据人类认知和视频数据本身的特性,提出具有一定通用性的视频内容分析模型。该模型包括两个子模型:一是基于语言值的视频内容表征子模型,为后续的视频语义内容分析奠定理论基础;另一是基于模式识别的语义空间关联子模型,为低层特征空间向高层语义空间的映射提供有效的关联方法,以获取内容表征子模型参数。2.视频多模态融合技术的研究:针对视频语义内容的多模态、多粒度特性,提出语义选择的多模态融合算法。对视觉、听觉和文本单个模态分别在不同的粒度空间上提取语义概念,利用语义概念之间的相关性去除误检语义概念,从而减少扩散误差。考虑到语义的时序特性,针对不同模态的语义概念分别定义重要性度量参数,并用于高级融合。实验结果表明,所提出的方法能够准确提取视频的高级语义信息,与其它融合算法相比性能更为良好。3.视觉语义提取和分析算法研究:根据注意力机制利用时空显著区域对视觉感知内容建立有效表征,针对视觉语义种类繁多和训练样本不足的情况,提出基于粗糙集和聚类的支持向量机集成算法对时空显著区域识别,该算法能有效提高传统支持向量机的泛化性能,实现了对视觉感知语义的准确提取。研究视觉信息与视频情感表达之间的联系,根据静态特征和动态特征的分析,实现视频场景的情感语义提取,视觉情感语义与音频情感语义的结合,能够对视频场景的情感内容进行更为准确的描述和刻画。4.视频字幕文本检测、定位和提取算法的研究:提出时空相关性的字幕文本检测与定位算法,利用视频文本在时间上的冗余性来提高检测速度和精度。采用监视—跟踪模型及扩展的QSDD(EQSDD)度量,实现对同一文本起始帧和终止帧的检测,降低误检率并提高处理速度。提出基于背景复杂度的自适应阈值选取方法对文本区域分割,根据笔画宽度对字符像素进行标记,滤除背景粘连的像素,得到二值化的文字区域,该方法在保留文字像素的同时很好地抑制了非文字像素,为后续OCR以及语义提取奠定了良好的基础。5.音频语义提取和分析算法研究:对音频流分别从感知空间和情感空间进行语义分析,以高斯混合模型作为低层音频特征到高层语义的关联模型,进行音频感知语义提取。根据音频感知语义蕴含情感的不同,进行显性感知语义、中性感知语义和隐性感知语义预分类。对显性感知语义和隐性感知语义,提出基于情感单元的情感内容分析方法,该方法对不同的情感单元分别提取更能体现情感的物理特征,采用GMM-SVM模型进行分类,实现对音频情感语义的提取,由于采用显著的情感特征和有效的分类方法,能更准确的提取和分析音频中的情感内容。