论文部分内容阅读
视频中的目标跟踪和定位是视频分析的基础。尽管有长达数十年的研究历史,在面对真实场景时,受到姿态变化、光照变化、遮挡、快速运动等因素的影响,依然存在许多需要解决的问题。本文的核心贡献在于探究了视频中目标定位的问题,提出了 3种创新的算法。提出了一种基于向量Boosting的自适应压缩感知跟踪算法。首先,用向量Boosting的方式从正负样本集合上学习区分度大的特征模板,并且采用在线的特征模板更新的方式。其次,提出轨迹矫正的方式,用时序上面的信息,辅助目标的定位。最后,采用多尺度自适应机制估计目标的尺度,避免背景信息干扰外观模型的更新。在CVPR2013和VOT2014上面的评测结果,体现该算法的优越性。提出基于姿态跟踪的人脸形状定位系统。首先训练一个多姿态的级联回归模型,分姿态能够降低模型训练阶段形状的偏差,提升模型对姿态变化的鲁棒性。其次,采用姿态跟踪模型,利用相邻两帧在时序上面的相关性,并且用卡尔曼滤波平滑当前预测的人脸形状。最后,将重新初始化机制融入到该系统中,该机制融合时序信息帮助系统在配准失败或者人脸丢失的情况下,有效地定位到人脸。该算法在300-VW比赛中取得第一的成绩。提出基于深度卷积网络的通用目标定位。首先通过位置相关的卷积特征级联3个区域分类和回归网络,改善定位框的位置。其次,探究利用基于卷积特征的相关滤波跟踪器传播置信度高的区域建议框。最后,我们利用目标类别之间的共生关系,建立相关关系表来推理目标之间的关系。该算法在ImageNet2016子项视频中的目标定位中取得了第一的成绩。本文提出3种视频中目标跟踪和定位的方法。大量实验结果表明,本文提出的模型在公开数据集中具有优越的性能。