论文部分内容阅读
目标跟踪作为计算机视觉领域中的一个重要研究方向,在安全监控、智能交通、自动导航和人机交互等方面都有着现实的研究意义和广泛的应用前景。目标跟踪是指在背景不断变化的连续视频序列中,对视频中某一特定目标进行定位,并且持续估计该目标的运动状态。但是在实际问题中,跟踪场景是复杂多样的,待跟踪目标的外观状态也是不断变化的,实现持续稳定的跟踪仍旧存在很大挑战。目标跟踪问题的重点是跟踪速度以及跟踪的准确性,近些年基于孪生网络的目标跟踪算法以其鲁棒的跟踪性能受到了研究人员们的广泛关注,该类方法将目标跟踪问题转化为图像块的匹配问题,通过训练一个相似性函数来计算模板图像与搜索区域的相似度,并由此判断目标所在的位置,这种端到端的离线训练方式使得跟踪问题被大大简化。本文以全卷积孪生网络目标跟踪算法为基础,针对其中的网络结构进行研究改进。针对目标跟踪中目标的快速移动问题,本文提出了一种嵌入光流网络的孪生网络视觉目标跟踪算法模型。该模型结构包括光流定位网络以及孪生跟踪网络两个部分,在光流定位网络中,首先通过光流估计网络计算相邻帧之间的光流信息。其次,根据这个光流信息训练一个回归模块来预测前一帧运动目标在当前帧中的粗略位置。最后,利用这个位置信息在当前帧中裁剪出固定大小的搜索区域送入到之后的跟踪网络中。孪生跟踪网络的第一个输入是第一帧中给定的确定目标,第二个输入是光流定位网络得到的搜索区域,跟踪网络对这两个输入提取特征然后进行相似性的度量,根据度量结果确定当前帧的精确位置,从而完成目标跟踪任务。通过实验表明,该方法有助于更准确地定位当前帧的搜索区域并充分利用了前一帧的目标跟踪结果,能够提高跟踪结果的准确率以及成功率,从而提高跟踪算法的跟踪精度。本文针对浅层网络无法有效表达图片信息的问题,提出了一种具有独立结构的注意力模块,该模块通过增强目标前景特征和抑制语义背景信息来提高算法对于目标前景和背景的区分能力。为了避免增加注意力模块使得跟踪网络的深度剧增造成梯度消失以及梯度爆炸等问题,我们将注意力模块以跳远连接的方式接入到孪生跟踪网络的主干网络中。针对注意力模块中的具体细节,我们的卷积层使用Inception结构,通过学习让网络自主选择卷积核,使得模型的自决策能力更强。实验结果表明孪生跟踪网络部分引入这个独立的注意力模块能够提高目标前景与语义背景间的区别能力,因而有效的提高了跟踪器的鲁棒性。