论文部分内容阅读
随着网络和多媒体技术的发展,视频分享网站中网络视频数量呈爆炸式增长,用户对视频检索需求越来越高,因此网络上图像视频检索成为重要的研究课题。图像视频检索当前有三种方式:基于文本的图像视频检索,基于内容的图像检索(CBIR:Content Based Image Retrieval)和两模态融合的图像视频检索。基于文本的图像视频检索流程,受上传者提供视频标题、标签的主观性影响大,使得检索准确度不具有稳定性;在基于内容的图像视频检索流程中,很大程度上面依赖于上传视频、图片的质量,此外基于此流程的算法时间复杂度高,对数据的自适应性差,使得CBIR系统面临很大的挑战;传统的多模融合方法虽然在一定程度上解决了此类问题,但是针对Web视频较少考查视频的有用社会特征,并且单纯从某一个或两个模态出发的检索方案不能满足"图像理解"的需要。综上所述,本文主要研究有效的多模融合方案,贡献如下:首先,本文提出一种新的网络视频多模态融合检索方案。分别从视频视觉内容,视频标题和标签的文本信息,以及视频上传时间、类别、作者三种人与视频交互产生的社会特征等异构信息出发进行多模态融合研究,并将此方法应用到大规模图像视频检索任务中。Youtube数据集上的实验结果显示:相对于传统单一文本特征、单一视觉特征的检索方案以及两模态融合的检索方案,我们的文本、视觉和用户社会特征多模态融合融合方案表现出更好的性能。其次,本文提出了一种主动式的内部参数调优算法和模态间参数的自学习算法。上文提到的多模态融合检索方案面临着两个问题,各模态内部和模态间参数过多的问题。对于第一个问题,如果在模态内部做简单加权,模态内部权重系数一般只能由个人经验给出,受主观因素影响大。针对多种社会特征,本文通过各模态内参数调整并自动迭代调优,实现了内部参数的自适应学习。针对第二个问题,在单纯应用一个或两个模态的情况下,可通过试参方式对参数进行选取,模态特性过多时调参过程复杂,本文通过考查多模态类结构的分类有效性,利用分类方法达到模态间参数自学习的目的。最后,本文利用给出的多模融合方案对视频主题进行分类,实验结果表明:在此方案下的主题间分类可以取得较好的效果。