论文部分内容阅读
图像理解技术是计算机视觉的一个重要课题,在很多方面有应用前景,因此受到了学术界和工业界的广泛重视。本文从区域分析的角度,从图像区域标注,图像搜索,图像编辑三个方面来改善图像理解的性能。区域是存在于局部特征点和全局图像之间的一个中间的语义单元。相比于局部特征点,区域能够保持更加丰富而完整的语义,能够从一定程度上减少语义鸿沟;相比于全局图像,基于区域的特征表示更加灵活,能够部分解决图像配准的问题。图像的区域一般是通过图像分割或者物体检测得到,而从图像区域内部提取的高维特征一般都存在噪声和冗余。如何从大量的无关特征中提取最有信息量的特征子集也是一个难题。虽然区域分析在图像理解中起到了举重轻重的作用,但是这方面的研究工作却不多。因此,本文从以下四个方面,全面的考虑了区域分析在图像理解中的应用:
·图像特征的自适应选择。近年来,越来越多的特征,例如颜色,纹理,形状特征等,都被证明可以增强计算机视觉系统的性能。但是在移动设备中,由于存储空间和计算能力的限制,如何在保证系统性能不降低的前提下,有效地选择少量最关键的特征是一个亟待解决的问题。
·图像区域的自动标注。随着互联网上用户标注图像数目的快速增加,如何根据图像的标注,自动地估计像素的标注,从而更完备地理解图像内容是一个颇受研究者们重视的问题。由于图像的标注和像素的标注的层次不同,因而跨层的标注传递是极其困难的。
·跨场景的图像检索。图像检索是图像理解的一个重要任务。现有的大量的工作都集中研究同一个域内部的图像检索问题。但是如何在查询图像和数据库图像来自不同域的情况下,依然保证搜索的准确性就成为非常有挑战性的问题。
·图像的自动编辑。图像编辑,由于其潜在的巨大娱乐价值,收到了工业界的极大重视。但是当下实用的图像编辑系统都是由专业的图像编辑人员使用特定的图像编辑软件实现的。如何实现大规模图像集的自动编辑是一个极有意义而极具挑战性的问题。
本文中,针对上述几个问题,我们在模式识别、计算机视觉、多媒体、机器学习等技术方面做了以下研究工作:
(1)提出了基于信息熵的自适应特征选择方法,该方法能有效地选择最有判别力的特征,并且能自动地决定有效特征的个数。
(2)提出了基于图模型的弱监督协同图像解析方法,该方法结合多示例学习以及图模型的思想,根据图像级别的标注,推断出像素级别的标注。
(3)提出了一种跨场景图像检索方法。为了减少查询图像和待搜索数据库这两个不同场景图像之间的差异,我们提出先对人体部位配准,然后借助辅助集多任务重构的方法。该方法可以用于移动设备中的服装搜索,当用户拍摄一件衣服之后,我们的系统可以自动地从在线购物网站找寻相似的服装。
(4)架构了一套自动的图像编辑系统,使得大规模的图像编辑成为可能。该系统的一个典型应用就是自动编辑用户移动设备中的个人照片,增强手机用户的娱乐体验。总的说来,本文针对基于区域的图像理解技术及其应用做了有益的探索。