多媒体数据中位置信息的挖掘及应用研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xiaoxiaoshixisheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社交网络的飞速发展和GPS设备的普及,互联网上基于位置的各种应用越来越多,但已有的位置信息大部分是靠人工标注或移动终端设备生成,数量规模还相对较小,因此亟需考虑如何通过其他途径来有效扩充。很多情形下,不同模态的媒体数据间是有关联的,利用其他类型的相关数据自动分析挖掘出所对应的位置信息成为一个关键性问题。  本论文针对上述问题从多媒体智能分析和计算机视觉的角度进行了研究,由于互联网上与位置信息相关联的媒体数据以文本和图像为主,分别从视觉特征、文本特征和多模态结合的三种方式来挖掘蕴含场景的位置信息。同时还介绍了前期样本数据的获取与生成。研究成果如下:  (1)研制了一套基于位置信息的全景视频采集设备和系统。通过该设备可以方便快速的获取大量具有位置信息的图像样本数据供训练使用。全景视频的方式提高了样本的获取效率,由于采用多摄像头全方位同步拼接的原理,克服了已有的基于透镜原理的设备的多种不足。  (2)提出了基于场景组稀疏表示的地标图像位置信息推断方法。利用每一个地标所对应的图像集合具有多个不同视觉特征组的特性,将图像位置推断问题转化成了场景组稀疏表示问题。首先针对每个地标的样本图像集合训练出一组稀疏编码的词典,包括通用词典和描述地标多个视角场景的专属词典,该方法在传统的组稀疏编码方法上进行了改进,特征组的信息可以是自动学习的,克服了传统的组稀疏表示方法中稀疏组要预先定义的不足。最后通过测试图像在各个地标词典上的稀疏表示效果来判断属于哪个地标。  (3)提出了一种基于主题模型的地标文本数据的位置推断方法。由于地标场景通常都有大量的样本数据以及有特定的文本描述,本文利用这些特点将位置推断问题转化成了一个文本分类问题,每个地标对应一个分类。本文提出了基于选择性位置相关的主题模型,把词汇对应的位置信息看作是一种约束,同时还加入了一个选择子来决定词汇是来自常规主题还是位置主题,以便区分位置相关词汇对不同情形的作用,有效的提高了位置推断的准确度。  (4)提出了基于统一超图的多模态融合地标位置信息推断方法。主要思想是考虑多模态数据中各个特征对位置信息的分辨度不同以及挖掘特征间的相关性。首先采用一个基于超图的统一框架来表示多模态数据,然后用基于正例的支持向量机方法来学习不同模态各自的权重以及每种模态向量中每一维度的权重,这样将地标图片的位置推断问题转化成具有多模态上下文图片的搜索排序问题。该方法将多模态的数据统一到了一个框架,而且利用超图充分挖掘了模态间的关系,取得了较好的实验结果。  (5)提出了基于图像匹配的非地标位置信息推断方法。由于非地标的图像缺乏大量的样本数据供学习,不能采用地标位置推断中的聚类方法,因此对图像匹配时的精确度和鲁棒性均有较高要求。首先检测出每张图像中的结构子块区域(描述场景静态背景),以排除一些前景的干扰,然后为视觉关键词建立一个改进的LSH索引方案用以在降低查询时间的同时提高准确率,并提出了一种同时考虑关键点相似度和局部共生相似度的图像特征表示方法,该方法对图像匹配中的光照变化、部分遮挡和几何变换提高了鲁棒性,而且整体图像的匹配速度也因为采用新的6位整数分量特征而得到显著提高。
其他文献
该文对比了传统防火墙与分布式防火墙之间的优缺点,设计了一个分布嵌入式防火墙系统DEF(Distributed Embedded Firewall).该系统主要包括嵌入式结点防火墙EF(Embedded Firewa
该论文主要内容如下: 1)提取指纹图像的两种细节特征点,该论文的目的是从包含有大概上千个指纹特征点的典型的指纹细化后图像中提取出40~60个真正的指纹图像特征点.在论文中
由于智能代理(Intelligent Agents)具有自治性、社会性、反应性和主动性等特性,代理的应用在智能教学系统研究领域中引起了广泛关注。根据建构主义的学习策略,基于Web的远程教
传统的皮影文化是我国民俗艺术的瑰宝,它汇集雕刻、绘画、戏曲、音乐、表演等艺术为一体,曾经一度是广大老百姓的精神粮食。然而根据当前的一项调查显示,传统的皮影文化正面临着
存储区域网络(Storage Area Network,简称SAN)是业界最近十分引人注目的新技术,它一方面能为网络上的应用系统提供丰富、快速、简便的存储资源;另一方面又能对网络上的存储资源
车辆牌照作为汽车的唯一身份标志,成为控制汽车行为和数量的重要手段。例如,北京、上海、杭州等城市先后出台了车辆限行措施,车辆限行的主要措施包括尾号限行和车辆管辖区限行;
该文提出了一种基于RBF神经网络的人脸定位方法,采用彩色图像的亮度分量作为神经网络的分类特征,并且有效的利用肤色信息减少了搜索空间,从而有效提高了人脸定位的正确率.同
随着国民经济的飞速发展,金融电子化、信息化、网络化已成为商业银行及有关金融单位的发展趋势,银行的传统票据鉴别方式由于防伪能力差,结算效率低、资金风险难以控制等缺陷已很
近十几年来,随着计算机技术的发展以及三维扫描技术的日渐成熟,三维数据的获取日益简单、快捷、精确,极大的促进了以三维数据为主的计算机视觉和计算机图形学的发展。于此同时,伴
该文从如下几个方面进行了研究:一.该文研究了篇章结构依存模型的建立,首先介绍了算法的理论基础,依存理论,并且分析了网络文档的各种格式.接着讨论了如何建立一个篇章结构依