基于“视觉词袋模型”的场景分类方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:a429629261
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字图像的爆发性增长,如何有效管理和组织海量图像已成为图像处理领域中一个迫在眉睫的难题。场景分类作为图像检索、图像理解等更高层次需求的基础,在计算机视觉领域占有举足轻重的地位。场景分类是指计算机根据图像内容,依据某种规则自动对图像进行标识的过程。“视觉词袋模型”以“词袋模型”为原型,能够有效弥补低层特征和高层语义之间的“鸿沟”,是场景分类领域的研究热点。  现有的场景分类方法主要存在以下两方面问题:一方面,注重对图像低层信息的分析,缺乏对高层语义的理解,或注重对图像高层语义的抽取,缺乏对低层特征的重视;另一方面,关注图像语义信息的提取,忽视图像空间结构信息,或关注图像布局结构分析,忽视图像高层语义。以上两方面导致现有分类方法存在一定局限性,影响分类性能。针对以上问题,本文以“视觉词袋模型”为基础,从以下两方面进行场景分类方法研究:  (1)提出基于多维信息融合的场景分类方法。融合“视觉词袋模型”生成的图像词向量表示和低层特征,实现对多维信息之间互补关系的取长补短。分别提取SIFT特征和SURF特征作为视觉词典的特征源,并聚类生成各个场景的“专业词典”,得到图像的词频向量,同时提取图像gist特征作为全局特征。为有效融合高层语义和低层特征,分别采用静态融合和动态融合策略,融合词向量和全局特征,以结合多维信息改善分类性能。实验结果证明,基于多维信息融合的场景分类方法能够在一定程度上提高分类准确率。  (2)提出基于主题的空间金字塔匹配核(T-SPM)的场景分类方法。鉴于SPM模型能够较好地统计特征的空间分布规律,而LDA模型能够有效提取图像潜在主题信息,为更好地结合图像潜在语义信息和空间结构特征,本文以SPM为基本框架,引入LDA模型,提出一种基于主题的空间金字塔匹配核(T-SPM),并实现基于T-SPM的分类方法。T-SPM利用LDA模型获取图像中主题和视觉单词的共现概率,对SPM进行扩展,通过统计主题在空间金字塔划分中的分布概率,对图像潜在主题在二维空间分布情况进行建模,得到T-SPM向量,实现同时描述图像的潜在语义信息和空间结构布局,最后结合SVM算法构建分类器完成场景分类。实验结果证明,结合图像潜在语义和结构特征的方法较之传统的只使用语义信息或只使用空间布局的分类方法具有更高的分类精确度。
其他文献
学位
随着经济社会的不断发展,现代项目管理越来越成为理论和实践关注的热点问题。作为项目管理者,所关注的问题是如何合理地调配有限的资源,高效完成各项项目指标。项目调度问题作为
数字图像修复是数字图像处理领域中的一个重要分支,是指对一幅不完整的数字图像中缺失信息的重建过程,无论是在面向数字化照片处理的应用领域,如数字化的破损文物壁画、老照片的
昆虫机器人是一种以昆虫为载体,并辅助以一定的控制设备而成的新型机器人。昆虫机器人的研制重点在于如何控制昆虫机器人的飞行行为,控制昆虫机器人必然要求精确地获取昆虫机器
学位
学位
社交网络自上世纪90年代兴起以后迅速发展,近几年大型社交网络的普及程度越来越高。“社交网络”成为了当今最受关注的互联网名词之一,它正在不断改变人们的生活和交流方式,网络
学位
航班着陆调度是空中交通管制的重要部分,调度方案包括为待着陆的航空器分配跑道,排序和调度着陆时间等内容,既要保证航空器能在预定的时间窗内着陆,又要满足航空器间的时间间隔约
云计算是通过运用虚拟化技术实现随时随地、按需、便捷访问共享计算资源池的计算模式。云计算平台通过虚拟机部署给虚拟机配置相应的物理计算资源,实现计算资源统一分配调度,以