面向网络视频检索的多模态融合方法研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:kyzy0082
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和多媒体技术的发展,视频分享网站中网络视频数量呈爆炸式增长,用户对视频检索需求越来越高,因此网络上图像视频检索成为重要的研究课题。图像视频检索当前有三种方式:基于文本的图像视频检索,基于内容的图像检索(CBIR:Content Based Image Retrieval)和两模态融合的图像视频检索。基于文本的图像视频检索流程,受上传者提供视频标题、标签的主观性影响大,使得检索准确度不具有稳定性;在基于内容的图像视频检索流程中,很大程度上面依赖于上传视频、图片的质量,此外基于此流程的算法时间复杂度高,对数据的自适应性差,使得CBIR系统面临很大的挑战;传统的多模融合方法虽然在一定程度上解决了此类问题,但是针对Web视频较少考查视频的有用社会特征,并且单纯从某一个或两个模态出发的检索方案不能满足"图像理解"的需要。综上所述,本文主要研究有效的多模融合方案,贡献如下:首先,本文提出一种新的网络视频多模态融合检索方案。分别从视频视觉内容,视频标题和标签的文本信息,以及视频上传时间、类别、作者三种人与视频交互产生的社会特征等异构信息出发进行多模态融合研究,并将此方法应用到大规模图像视频检索任务中。Youtube数据集上的实验结果显示:相对于传统单一文本特征、单一视觉特征的检索方案以及两模态融合的检索方案,我们的文本、视觉和用户社会特征多模态融合融合方案表现出更好的性能。其次,本文提出了一种主动式的内部参数调优算法和模态间参数的自学习算法。上文提到的多模态融合检索方案面临着两个问题,各模态内部和模态间参数过多的问题。对于第一个问题,如果在模态内部做简单加权,模态内部权重系数一般只能由个人经验给出,受主观因素影响大。针对多种社会特征,本文通过各模态内参数调整并自动迭代调优,实现了内部参数的自适应学习。针对第二个问题,在单纯应用一个或两个模态的情况下,可通过试参方式对参数进行选取,模态特性过多时调参过程复杂,本文通过考查多模态类结构的分类有效性,利用分类方法达到模态间参数自学习的目的。最后,本文利用给出的多模融合方案对视频主题进行分类,实验结果表明:在此方案下的主题间分类可以取得较好的效果。
其他文献
粗糙集理论是1982年由波兰科学家Z.Pawlak年提出的一种分析不精确、模糊、不确定和不完备信息的数学工具。因为它不需要任何先验知识或者其他额外的信息,就能高效地分析和处理
在计算机发展的历史中,仿真技术一直是一个重要的研究热点,随着现代计算机仿真技术的发展,仿真技术已广泛应用于芯片设计、系统开发、网络安全等领域。由于芯片技术的快速发展,MC
随着Internet的迅猛发展,在互联网中存在有大量无用甚至是非法的信息,这些信息会影响人们的正常生活,并对社会造成不良的影响,因此需要对这些信息进行过滤。一个好的过滤系统应当
截至2015年底,我国普通铁路运营里程为10.2万公里,高铁运营里程为1.9万公里,所以钢轨的检测和维护显得愈加重要。传统的检测方法都是基于人工巡逻检测,每个铁路巡道工需要负
光化学反应模拟是指用计算机模拟激光与各种物质间发生的化学反应。由于其模拟结果与真实实验极为接近,可以通过调控模拟过程中不同的激光参数反复研究激光光子对物质的具体影
感知无线电(CR)是一种以伺机的方式共享频谱资源的技术,提高了在频谱共享环境下的频谱利用率。但是采用感知无线电技术实现频谱共享的前提是,必须保证对主用户不造成干扰,并且同
随着互联网的高速发展,以短文本形式出现的信息呈现爆炸式的增长,比如在线即时聊天信息、手机简讯、微博、短文本评论及电子商务网站中的产品标题等。在这种趋势下就给短文本信
MIMO和OFDMA等5G移动通信技术快速发展,正逐渐被应用于高速移动场景中,而且随着视频流等海量数据迅猛增加,高速铁路乘客对数据传输速率、网络服务质量等需求也日益增加。因此
在互联网高速发展的今天,电子商务迅速崛起,人们的消费观念由日常的普通市场开始向网络购物转变。网络购物给人们的日常生活带来了极大方便,提高了人们的生活质量。但是,信息量巨
协作分集技术是一项对抗多径衰落的有效技术,指单天线移动终端通过相互间的协作形成空域分集。机会中继(opportunistic relay-OPR)协作系统则通过选择一个最合适的协作伙伴参