论文部分内容阅读
视频内容标注是信息检索和模式识别领域的热点问题,在智能视频监控视频理解等传统领域有着广泛的应用随着互联网多媒体技术的发展以及用户手持设备的不断进步,视频内容标注已经逐渐成为未来信息检索最关键的组成部分之一目前基于内容的视频标注主要通过人工标注大量视频构建训练样本,根据这些样本建立相关模型来预测未知的视频内容人工标注视频是一项费时费力的工作,而且传统的训练学习方法通常假设训练样本与测试样本来源于同样的数据域(domain)另外,传统的训练学习方法只在拥有大量已标注训练数据的前提下,对测试数据进行比较鲁棒的分类或标注在仅有少量标注数据的情况下,传统的学习方法很难训练出具有较强鲁棒性较好泛化能力的分类器所幸的是,迁移学习(transfer learning)可以解决只有少量甚至没有标注数据的分类器学习问题它通过利用其它不同相关数据域中已有的知识和数据来学习适用于感兴趣数据域的分类器本文将重点讨论如何借助于海量的互联网多媒体数据(源域,source domain),来对视频(目标域,target domain)中的事件进行有效的标注首先,借助互联网图像搜索引擎日渐成熟,本文在互联网检索得到得图像集上构建图像与视频空间的知识迁移框架为了避免单一关键字检索知识的片面性,本文使用多个联想词从互联网中检索多组图像其次,基于多图像组知识迁移,本文使用与视频事件间接相关的带有语义信息的关键词进行检索,以获得多语义分组的多源域图像集,从而消除底层图像特征与高层事件概念之间的语义鸿沟最后,本文针对海量视频的标注问题,提出自动增量式学习的方法以不断更新视频标注模型,使其能够适应日益更新的用户视频本文的主要贡献总结如下:通过在图像与视频的异构特征空间之间建立共同特征子空间,提出利用关键字检索互联网图像的结构化知识迁移模型,实现视频自动标注,从而减少人工标注的代价构建判别式结构化模型,即跨领域结构化模型(Cross-DomainStructural Model),来联合获取图像域特征与视频域特征之间的相关性,以及不同图像属性之间的关系此模型将互联网图像中的图像特征和用户视频序列中的视频特征结合起来以获得两者之间的相关性同时,在此模型中,通过使用典型相关性分析构建共同特征空间,使得源域与目标域中的数据在统一的框架中联合学习为了避免单一关键字检索获得知识过于片面,本文在基于单关键字检索的跨域知识迁移中引入了基于联想词的多组互联网图像提出分组权重联合学习算法(Joint Group Weighting Learning),有效地将不同但相关的图像组分类器迁移到用户视频在此框架下,为了获得更具判别性的共同特征,本文提出了判别性拓扑保持典型相关性分析(Discriminative Topology PreservingCanonical Correlation Analysis)以习得一个新的共同特征空间为了进一步适应用户视频事件在语义上的多样性,本文提出了基于多语义分组互联网图像知识迁移的视频标注(Multi-Group based Domain Adaptation)使用关键字检索,获取在概念层和事件层的带语义信息的源域图像组不同于传统的多领域适应算法,本文通过衡量源域与目标域之间的语义相关性,给不同源域数据分配不同的权重为了考虑组权重与组分类器之间的相互影响,该方法在习得组权重的同时优化组分类器由于目标域的未标注视频中含有大量的有用信息,引入两个新的数据依赖正则项来发掘目标域中未标注的用户视频以优化目标分类器为了能够从根本上解决互联网视频大数据的标注问题,本文使用增量式的方法不断的更新所得到的标注模型,提出了使用异构源域增量式迁移学习的计算框架此框架将组权重建模为隐变量,通过构建结构化隐变量模型以获取源域组与目标域样本之间的相关性,并在增量式迁移学习的过程中引入两个约束,在适当保留旧知识的同时学习新知识