基于词袋模型的图像分类方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wujian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何面对人们日常生活中接触到的,尤其是互联网上数量激增的图像进行有效的分类,已经成为研究的新热点。虽然现有的图像分类技术已经取得不错的性能,但是它们还存在着一些问题。一是大部分现有的图像分类算法都是基于图像的底层特征,无法解决图像分类中的“语义鸿沟”问题;二是,大多数图像分类算法总是忽视图像中部分与部分之间的空间关系。 一种新的图像分类的思路是将一幅图像看成一篇文章,图像是由一系列视觉单词组成的。通过这样的假设,可以把图像分类的问题转换为文本分类的问题,一些非常成熟而且有效的文本处理及分类方法可以被应用来实现高效的图像分类。 文本建模著名的模型是词袋模型(BOW),该模型已经被应用到现实的图像分类中,取得了非常不错的效果。基于词袋模型的图像分类可以实现高速的图片分类,但是它还是无法解决图像分类中的“语义鸿沟”问题及忽略图像部分间的空间关系问题。 本文对基于词袋模型的图像分类方法进行研究,提出若干改进算法试图缓解或者解决其存在的问题。对“语义鸿沟”问题,提出利用概率潜在语义分析的方法提取底层图像特征中的语义信息,并利用这些语义信息进行分类。对如果利用图像部分间的空间关系的问题,提出在词袋模型基础上,利用文本的语言建模的概念考虑各种视觉单词的空间关系,并利用这些空间关系进行分类。 本文的主要创新点总结如下: 1.介绍了图像分类发展与问题,将文本分类与图像分类进行了类比,给出了基于词袋模型的图像分类思路。 2.介绍了图像特征提取算法-尺度不变特征变换描述算子(SIFT),并对其做了改进。改进措施有两种,一项为减少种子点数目并增加方向数目:另一项为给SIFT特征提取步骤中增加提取颜色信息的一环(SIFT是针对灰度图像的),从而优化图像的描述效果。 3.针对图像分类的“语义鸿沟”问题,提出基于概率潜在语义分析与词袋模型的图像分类方法。该方法在词袋模型的基础上,从视觉词汇中提取具有语义的中层特征,进而利用分类技术对图像分类。 4.为了利用图像部分间的空间关系,给出了基于语言建模的图像分类方法。在此基础上,提出了基于“双词袋、三词袋、L镜像型、十字交叉型词袋”的综合图像分类模型。
其他文献
层状多界面构件以其优越的性能广泛应用于航空航天领域,但是由于其界面脱粘问题,严重影响了层状多界面构件的完整性。针对目前采用常规超声检测方式对层状多界面脱粘问题进行
SDN以网络可编程技术作为驱动,通过逻辑上集中化的控制思想,能够满足网络灵活管理与业务流精细控制的需求。因此,SDN将作为基础架构技术支撑未来网络的发展。当前的SDN架构因
数字指纹是数字版权保护的有效措施。在数字指纹系统中,发行商将嵌入不同标记的数字产品分发给不同的用户,当非法用户通过合谋攻击削弱或移除指纹以获取产品拷贝时,发行商便
软件无线电可以对功能进行模块化,它有着较大的灵活性、较好的扩展性等优势,这使得当代数字通信行业中工程师们对其进行深入的研究。它的中心思想是指通过对功能模块算法的转
近年来,通过手机终端获取多媒体的方式越来越普遍,与此同时,面临的问题也随之增加,如盗版威胁,应用不够灵活,这就要求一种既能灵活高效的为手机终端提供多媒体,又能有效地抑
随着无线局域网的广泛应用以及多媒体技术的发展,人们对WLAN中的语音、视频等实时业务的需求越来越多。因此,WLAN中实时业务的QoS研究成为热点。IEEE 802.11标准是目前应用最广
由于无线通信技术的飞速发展,人们对于带宽的需求也在迅速增长。一方面,传统的频谱分配机制造成了频谱资源的浪费。另一方面,新业务对于频谱的需求无法得到满足。感知无线电
随着社会发展全球化战略的布局,信息技术的发展势头愈加迅猛,并已经渗透到各个领域,大到军事安全、小到生活起居。随之而来的信息安全传输问题被很多学者先后提出,通信的保密
天然气设施及公安、交通领域、核设施的安全防范问题是保障社会安全的重要问题之一,上述设施及领域目前在夜雾天大多采用单一波段的视频监控技术,无法满足在夜雾天况下对受监