论文部分内容阅读
图片检索技术,因其应用的广泛,一直以来都是计算机视觉领域中的研究基础和热点。但是随着互联网、移动互联网的迅猛发展,网上图片量呈爆炸式增长,大规模图片中特定目标的检索又面临着新的挑战,即如何设计更能反映语义相似性的特征、区分能力更强不变性更优的特征表达以及更有效的特征编码方式来实现大规模图片中特定目标的高效检索。 本文围绕大规模图片检索中的这些挑战展开了一系列研究,从理论、实验两方面分析并比较各种关键技术在不同应用中的优劣,主要内容及贡献有: 1)传统图片特征与特征表达:主要研究了SURF&VLAD与颜色直方图这两种经典的传统特征,并在商品数据集上对比了两者的检索效果。对于SURF&VLAD特征,同时分析了Patch SURF&VLAD与Keypoint SURF&VLAD方法在不同应用中的适用性。 2) CNN特征与特征表达:首先直接抽取CNN模型的全连接层输出作为图片特征,在商标数据集上比较了其与传统特征的优劣;为提升CNN特征的区分能力,本文又提出了用Pooling方法集成CNN全连接层和卷积层输出,形成特征MPFC和SPC,然后线性组合二者得到MPFC-SPC特征,简单高效,在两个经典的图片检索数据集上均取得了显著的性能提升;另外,为弥补CNN特征的不变性缺陷,本文还提出了用VLAD方法二次集成CNN特征MPFC和SPC,进一步改善了两个经典图片检索数据集的检索效果。 3)图片特征编码与高效检索:为优化穷举式的最近邻检索,比较了三种有代表性的特征编码方法PQ(Product Quantization)、LSH(Locality-S ensitive Hashing)、ITQ(Iterative Quantization),从精度、时间复杂度和存储空间复杂度三方面分析了它们的优劣。 4)图片检索框架设计与实现:提出一个低耦合的图片检索框架,能够根据具体应用组合需要的模块,灵活定制检索系统。基于该框架,实现了商品检索和商标检索两个系统,并用大规模图片集测试了商标检索系统的可扩展性。