论文部分内容阅读
如何面对人们日常生活中接触到的,尤其是互联网上数量激增的图像进行有效的分类,已经成为研究的新热点。虽然现有的图像分类技术已经取得不错的性能,但是它们还存在着一些问题。一是大部分现有的图像分类算法都是基于图像的底层特征,无法解决图像分类中的“语义鸿沟”问题;二是,大多数图像分类算法总是忽视图像中部分与部分之间的空间关系。
一种新的图像分类的思路是将一幅图像看成一篇文章,图像是由一系列视觉单词组成的。通过这样的假设,可以把图像分类的问题转换为文本分类的问题,一些非常成熟而且有效的文本处理及分类方法可以被应用来实现高效的图像分类。
文本建模著名的模型是词袋模型(BOW),该模型已经被应用到现实的图像分类中,取得了非常不错的效果。基于词袋模型的图像分类可以实现高速的图片分类,但是它还是无法解决图像分类中的“语义鸿沟”问题及忽略图像部分间的空间关系问题。
本文对基于词袋模型的图像分类方法进行研究,提出若干改进算法试图缓解或者解决其存在的问题。对“语义鸿沟”问题,提出利用概率潜在语义分析的方法提取底层图像特征中的语义信息,并利用这些语义信息进行分类。对如果利用图像部分间的空间关系的问题,提出在词袋模型基础上,利用文本的语言建模的概念考虑各种视觉单词的空间关系,并利用这些空间关系进行分类。
本文的主要创新点总结如下:
1.介绍了图像分类发展与问题,将文本分类与图像分类进行了类比,给出了基于词袋模型的图像分类思路。
2.介绍了图像特征提取算法-尺度不变特征变换描述算子(SIFT),并对其做了改进。改进措施有两种,一项为减少种子点数目并增加方向数目:另一项为给SIFT特征提取步骤中增加提取颜色信息的一环(SIFT是针对灰度图像的),从而优化图像的描述效果。
3.针对图像分类的“语义鸿沟”问题,提出基于概率潜在语义分析与词袋模型的图像分类方法。该方法在词袋模型的基础上,从视觉词汇中提取具有语义的中层特征,进而利用分类技术对图像分类。
4.为了利用图像部分间的空间关系,给出了基于语言建模的图像分类方法。在此基础上,提出了基于“双词袋、三词袋、L镜像型、十字交叉型词袋”的综合图像分类模型。