论文部分内容阅读
近年来,随着社交网络的飞速发展和GPS设备的普及,互联网上基于位置的各种应用越来越多,但已有的位置信息大部分是靠人工标注或移动终端设备生成,数量规模还相对较小,因此亟需考虑如何通过其他途径来有效扩充。很多情形下,不同模态的媒体数据间是有关联的,利用其他类型的相关数据自动分析挖掘出所对应的位置信息成为一个关键性问题。 本论文针对上述问题从多媒体智能分析和计算机视觉的角度进行了研究,由于互联网上与位置信息相关联的媒体数据以文本和图像为主,分别从视觉特征、文本特征和多模态结合的三种方式来挖掘蕴含场景的位置信息。同时还介绍了前期样本数据的获取与生成。研究成果如下: (1)研制了一套基于位置信息的全景视频采集设备和系统。通过该设备可以方便快速的获取大量具有位置信息的图像样本数据供训练使用。全景视频的方式提高了样本的获取效率,由于采用多摄像头全方位同步拼接的原理,克服了已有的基于透镜原理的设备的多种不足。 (2)提出了基于场景组稀疏表示的地标图像位置信息推断方法。利用每一个地标所对应的图像集合具有多个不同视觉特征组的特性,将图像位置推断问题转化成了场景组稀疏表示问题。首先针对每个地标的样本图像集合训练出一组稀疏编码的词典,包括通用词典和描述地标多个视角场景的专属词典,该方法在传统的组稀疏编码方法上进行了改进,特征组的信息可以是自动学习的,克服了传统的组稀疏表示方法中稀疏组要预先定义的不足。最后通过测试图像在各个地标词典上的稀疏表示效果来判断属于哪个地标。 (3)提出了一种基于主题模型的地标文本数据的位置推断方法。由于地标场景通常都有大量的样本数据以及有特定的文本描述,本文利用这些特点将位置推断问题转化成了一个文本分类问题,每个地标对应一个分类。本文提出了基于选择性位置相关的主题模型,把词汇对应的位置信息看作是一种约束,同时还加入了一个选择子来决定词汇是来自常规主题还是位置主题,以便区分位置相关词汇对不同情形的作用,有效的提高了位置推断的准确度。 (4)提出了基于统一超图的多模态融合地标位置信息推断方法。主要思想是考虑多模态数据中各个特征对位置信息的分辨度不同以及挖掘特征间的相关性。首先采用一个基于超图的统一框架来表示多模态数据,然后用基于正例的支持向量机方法来学习不同模态各自的权重以及每种模态向量中每一维度的权重,这样将地标图片的位置推断问题转化成具有多模态上下文图片的搜索排序问题。该方法将多模态的数据统一到了一个框架,而且利用超图充分挖掘了模态间的关系,取得了较好的实验结果。 (5)提出了基于图像匹配的非地标位置信息推断方法。由于非地标的图像缺乏大量的样本数据供学习,不能采用地标位置推断中的聚类方法,因此对图像匹配时的精确度和鲁棒性均有较高要求。首先检测出每张图像中的结构子块区域(描述场景静态背景),以排除一些前景的干扰,然后为视觉关键词建立一个改进的LSH索引方案用以在降低查询时间的同时提高准确率,并提出了一种同时考虑关键点相似度和局部共生相似度的图像特征表示方法,该方法对图像匹配中的光照变化、部分遮挡和几何变换提高了鲁棒性,而且整体图像的匹配速度也因为采用新的6位整数分量特征而得到显著提高。