论文部分内容阅读
对象跟踪是计算机视觉的一个基本问题,可以应用到视频监控、视频分析、机器人和智能人机交互等很多领域。对象跟踪主要目的是获得运动对象在视频中的轨迹及运动参数,如位置、尺度等。依据跟踪过程所使用的特征数目可以将现有算法简单分为单一特征跟踪和多特征融合跟踪。目前,大量的实验已经证明多特征融合技术可以克服单一特征的缺陷和增加跟踪的鲁棒性,但是基于固定权重的多线索融合方法在对象外观发生变化时或者复杂场景下往往出现跟踪漂移问题,因而在跟踪过程中如何在线调整特征属性以及动态融合多特征便成为了跟踪领域的热点问题。本文针对上述问题提出了两种解决方法,分别根据外观特征的观测概率计算对似然分布的逼近度和从分类角度选择能区分对象与背景的特征集。最后,本文以提出的运动对象跟踪方法为基础,开发了一个对象跟踪模块,并集成至面向智能监控的原型系统eSur中。具体的,本文的主要研究内容如下:
第一,本文提出一种动态融合多特征的对象跟踪方法,引入检测信息作为特征融合过程的监督,从而增强对象跟踪的健壮性。本章算法首先为对象建立不同的外观模型以计算观测值的概率分布,然后基于不同的视觉特征分别寻找到概率最大的区域作为跟踪假设,并通过线性融合得到多特征跟踪结果。然后引入较高准确率的检测信息,每个检测结果最多可以与一个相似的跟踪假设相关联,而关联结果则作为对象真实位置的估计,用于指导多特征融合过程。本文计算观测假设与真实分布的逼近程度,并以此评判特征的性能来调节特征权重。计算权重时需要分别计算每种跟踪假设与关联结果在特征空间及欧式空间上的逼近程度,最终实现多种特征的动态整合。本章算法在TRECVid’08事件检测数据集上进行了定性的和定量的评价,并且与现有的算法进行了比较。实验结果表明,在整体性能上本章算法效果最优,从而验证了多特征融合思路的可行性。
第二,本文提出一种基于在线多实例学习的多特征跟踪方法,并通过引入半监督学习过程避免因为跟踪漂移或对象遮挡导致的错误更新问题。本文将跟踪过程视为基于不同外观特征区分对象类和背景类的二值分类问题,进而通过在线学习过程来训练适应对象外观变化的分类器。以往的工作已经证明了多实例学习和半监督学习对跟踪问题的有效性,本文将两者结合在多特征融合过程。针对跟踪过程中无法清晰地区分对象和背景的问题,多实例学习方法将训练样本组合成Bag形式,避免了对样本区域的标签对齐要求,从而消除标签噪声的影响。而针对在线学习中标签不明确导致错误更新的问题,半监督学习的方法引入先验知识作为监督,将更新样本视为未标注数据,从而避免了因跟踪漂移或对象遮挡导致的背景类作为对象类进行更新的问题。区别于以往工作的是本文方法分别建立通用性模型和特定性模型,通过信息流的传递将外观变化信息也引入到先验知识中,从而保证了分类过程的适应性和健壮性。最终本文在Boosting的框架下为每种特征构造一种弱分类器,通过半监督的多实例学习选出最优弱分类器,将它们组合为最终的多特征融合结果。本文通过在公开数据集上与现有的在线学习方法进行对比,证明了将半监督学习与多实例学习结合在一起,指导多特征跟踪具有更优的效果。
第三,本文利用所提出的多特征跟踪算法开发了一个面向视频监控的对象跟踪模块,并集成至智能监控原型系统eSur中。该系统实现了对象检测与对象跟踪之间的信息交互,可以自动针对感兴趣对象进行持续的跟踪,得到应用于真实视频监控场景的跟踪结果。该系统一方面区别于离线跟踪模式,实现了在线的检测与跟踪数据交互并输出跟踪结果,适应智能监控即时输出分析结果的需求;另一方面它建立的多特征融合框架可以灵活加入各种特征用来提升跟踪性能,从而满足不同监控场景的要求。