论文部分内容阅读
随着数字图像的爆发性增长,如何有效管理和组织海量图像已成为图像处理领域中一个迫在眉睫的难题。场景分类作为图像检索、图像理解等更高层次需求的基础,在计算机视觉领域占有举足轻重的地位。场景分类是指计算机根据图像内容,依据某种规则自动对图像进行标识的过程。“视觉词袋模型”以“词袋模型”为原型,能够有效弥补低层特征和高层语义之间的“鸿沟”,是场景分类领域的研究热点。 现有的场景分类方法主要存在以下两方面问题:一方面,注重对图像低层信息的分析,缺乏对高层语义的理解,或注重对图像高层语义的抽取,缺乏对低层特征的重视;另一方面,关注图像语义信息的提取,忽视图像空间结构信息,或关注图像布局结构分析,忽视图像高层语义。以上两方面导致现有分类方法存在一定局限性,影响分类性能。针对以上问题,本文以“视觉词袋模型”为基础,从以下两方面进行场景分类方法研究: (1)提出基于多维信息融合的场景分类方法。融合“视觉词袋模型”生成的图像词向量表示和低层特征,实现对多维信息之间互补关系的取长补短。分别提取SIFT特征和SURF特征作为视觉词典的特征源,并聚类生成各个场景的“专业词典”,得到图像的词频向量,同时提取图像gist特征作为全局特征。为有效融合高层语义和低层特征,分别采用静态融合和动态融合策略,融合词向量和全局特征,以结合多维信息改善分类性能。实验结果证明,基于多维信息融合的场景分类方法能够在一定程度上提高分类准确率。 (2)提出基于主题的空间金字塔匹配核(T-SPM)的场景分类方法。鉴于SPM模型能够较好地统计特征的空间分布规律,而LDA模型能够有效提取图像潜在主题信息,为更好地结合图像潜在语义信息和空间结构特征,本文以SPM为基本框架,引入LDA模型,提出一种基于主题的空间金字塔匹配核(T-SPM),并实现基于T-SPM的分类方法。T-SPM利用LDA模型获取图像中主题和视觉单词的共现概率,对SPM进行扩展,通过统计主题在空间金字塔划分中的分布概率,对图像潜在主题在二维空间分布情况进行建模,得到T-SPM向量,实现同时描述图像的潜在语义信息和空间结构布局,最后结合SVM算法构建分类器完成场景分类。实验结果证明,结合图像潜在语义和结构特征的方法较之传统的只使用语义信息或只使用空间布局的分类方法具有更高的分类精确度。