论文部分内容阅读
随着世界范围内对社会公共安全和公众保护需要的日益增长,越来越多的摄像头被安装在学校、医院、街道、住宅小区、公园等场所。面对全天候实时拍摄的海量监控视频数据,如何进行高效地管理和存储,并且自动快速地提取出入们想要的信息,成为亟待解决的重要问题。本文针对智能视频监控中的视频浓缩和行人属性分类这两个关键问题,进行了深入的研究,主要研究成果和贡献如下: 1.基于在线视频浓缩框架,提出一个高速视频浓缩的实现方案,包括多线程实现和运算加速两个部分。在该方案中,将视频浓缩算法分解成三个步骤,分别由三个并发线程并行执行:1)前景目标产生线程,用来提取视频中的运动目标序列和背景图片;2)前景目标重排线程,采用在线重排算法对运动目标序列进行时域重排,降低计算复杂度;3)前景目标缝合线程,利用泊松编辑算法缝合前景目标和背景图片。在运算加速方面,利用GPU(Graphic Processing Unit)加速基于尺度不变的局部三元模式(Scale Invariant Local TernaryPattem,SILTP)物体分割算法,提高了处理速度。此外,为了节约内存,提出了一种在线的背景生成方法,并且在线程之间引入生产-消费者模型,增强了内存管理能力。 2.提出了面向摄像机网络的多路视频联合浓缩算法。设计了一个关于前景目标重排的损失函数,它引入了目标相似度和多摄像头下前景目标之间的时域限制,能全局地重排运动目标,使所生成的多路浓缩视频更便于用户浏览。前景目标重排的损失函数包括:1)遮挡损失项—考虑同一摄像头下目标之间的遮挡损失。为了更好地平衡遮挡损失项和时序错乱损失项之间的比重,设计了一种基于遮挡程度的遮挡损失,使得遮挡损失项和时序错乱损失项的值域相当,且与输入视频的分辨率无关。2)时序损失项—不仅考虑同一个摄像头下目标之间的时序错乱损失,同时也考虑不同摄像头下运动目标之间的错乱时序损失。为了更好地保证目标之间的时序,时序错乱损失项引入了目标相似度,使得同一摄像头下相似度低的运动目标之间的时序和不同摄像头下相似度高的运动目标之间的时序得到更大的重视。 3.提出了一个基于属性相互关系建模的行人属性分类算法。每个属性的分类分数由两个部分组成:第一部分是该属性自身的分类分数;第二部分是一个回归器的输出分数,该回归器从其它属性分数训练得到。这样防止了属性因为和自身最相关,而忽略了属性之间相互关系的作用。为了促进行人属性分类的研究,本文还构建了带有属性标注的行人库APiS(Attributed Pedestrians in Surveillance)、测试协议和基准算法。APiS数据库包含3,661张行人图片,每张图片带有11个二类属性。基准算法对每个属性独立地进行预测,不考虑属性间的相互关系,每个属性的分类器都单独使用Gentle Adaboost算法在颜色和纹理特征中挑选弱分类器,组合成强分类器。实验表明,在APiS数据库上,所提出的基于属性相互关系建模的行人属性分类算法比基准算法有更好的分类结果。 4.提出了基于多标签卷积神经网络(Multi-Label Convolutional Neural Network,MLCN-N)的行人属性分类算法,实现了多属性的联合学习。MLCNN把属性分类问题转化为多标签分类问题,将多标签损失函数引入卷积神经网络,实现了多个属性同时预测。首先,同传统分类器相比,MLCNN不需要人工设计特征,因为MLCNN算法能够以机器学习的方式从图片中学到有效的特征。其次,MLCNN能够在一个统一的框架中同时预测多个属性,无需对每个属性逐个训练分类器,节约了逐个训练属性分类器的计算代价和人力。实验表明,MLCNN比传统的分类器有更好的分类效果。 综上所述,本文面向大规模监控视频的有效检索问题研究了两个方向,提出了高速视频浓缩技术和多路视频联合浓缩技术,有望在快速浏览大量监控视频的任务里体现其重要的应用价值;同时在行人属性分类方面,提出了属性间相互关系建模和多属性联合深度学习的理论和方法,在大规模监控视频的语义检索方面是个有益的探索和尝试。