论文部分内容阅读
基于监控视频的行人统计系统在许多人群管理、公共安全应用中提供安全支持。区别于普通的行人统计,大规模行人统计应用的场景更加复杂、面临的问题也更多,诸如行人尺度差异大、背景复杂、行人数目多以及光线差异大等。由于场景不同,这些难题不能使用普通的行人统计方法解决。本文致力于完成复杂场景下的大规模行人统计,具有一定的实际意义。本文提出一种端到端的行人统计方法,基于深度学习完成行人数目的回归统计,而这样的统计无需图像预处理,也无需提取手工设计的特征。在方法研究中,首先设计一个多层卷积神经网络(Convolutional Neural Networks,CNN),并利用CNN提取图像的深层特征,通过欧式距离损失函数对比人数预测值与真值,训练网络并完成回归统计。为了进一步增强网络模型对运动行人的捕捉能力,网络模型整合了原图像与运动图像两种信息,训练出两个独立的模型,分别统计静止的行人与运动的行人。最后,利用特征图合并的方法,将两个模型进行融合,形成一个完整的行人统计模型。为了验证模型在复杂场景下的有效性,笔者采集了重庆市解放碑步行街的监控数据,并且进行了行人位置与数量标注,作为实验数据集。为了与目前常见的几种行人统计方法对比,在两个普遍使用的公开数据集Mall Dataset与UCSD Dataset上完成测试,实验结果表明,本研究提出的行人统计模型准确率更高、更加有效。为了验证本方法与基于目标检测的方法相比的优势,研究中使用2016年准确率最高的目标检测开源框架Faster R-CNN完成行人检测,并加入优化训练方法,利用检测结果得到总人数。在使用相同的数据集对比下,行人统计模型准确率更高、速度更快,再一次印证了本研究方法的有效性。为了探索深度学习的内在运行机制,加入了深度学习可视化,通过对CNN的逐层跟踪与分析,展示其工作原理,并且形象地回顾了整个方法流程。