论文部分内容阅读
传统视频监控系统一般采用“记录存储+人工处理”的工作模式,人工成本较高,并且长时间盯着屏幕容易让监控人员身心疲惫。近几年监控摄像头的数量成几何数增长,若还要求监控人员实现对每路视频信息进行实时观看已不现实,因此视频监控的智能化是大势所趋。本文通过对监控视频的特点进行分析,在前人研究的基础上提出算法模型,以实现自动检测监控视频中的人群异常事件。主要工作如下:(1)研究中发现监控人员在观看视频时,眼球对视频不同区域的关注度是有一定规律的。在播放正常视频时,人眼对视频中每个区域的注意力会在一定时间后达到某个平衡。当视频场景中突然出现异常事件时,场景中的行人会立刻做出异常反应(运动),这时监控人员的人眼注意力会立刻持续聚焦在异常事件所发生的区域。根据这个现象,基于特征整合理论,结合人类视觉感知系统和四元数傅立叶变换,本文提出了一个适用于人群异常事件检测的显著性检测模型,并用该模型所生成的显著信息图实现人群异常事件检测。(2)本文提出的显著性检测模型采用了像素点的运动速度及亮度信息,而由此构建的人群异常事件检测模型会受到背景亮度信息的影响。因此,为了降低这种影响,本文将光流场统计特征和显著信息结合起来,实现人群异常事件检测。由于加入了光流场统计特征,检测模型提高了人群异常事件检测的准确率。(3)一直以来,基于人群异常事件检测模型多采用手工特征(低级特征)实现对视频的表示,如:光流场、光流场直方图、全局方向光流场直方图等等。近年来随着深度神经网络的广泛运用,研究人员普遍认为:在图片、视频的分类任务中,用高级语义特征来表示样本会更加有效。这种从低级特征到高级特征的提取过程十分类似大脑的学习过程。基于这点,本文采用一个深度神经网络——PCANet对低级特征进行更进一步的特征提取,用抽象出来的高级语义特征来实现人群异常事件检测。实验结果显示采用PCANet后,高级语义特征确实能够进一步提高人群异常事件检测的准确率。(4)在人群异常事件检测中,光流场作为一个重要的时空特征被大量模型所采用,因为它是像素点的二维瞬时速度场,能够反映视频帧的运动信息。但由于光流场是当前帧中所有像素点的运动信息,它无法区分行人和非行人的运动,于是会将非行人的运动一块作为运动信息被人群异常事件检测模型所使用,最终会影响到人群异常事件检测的结果。要降低这个影响,就不能用整个帧的光流场来代表视频中的人群运动,而应该将行人与非行人区分开来,用行人的运动信息来实现人群异常事件检测。但行人定位、追踪本身就是一个研究的难点,故本文提出采用人群密集度来表示视频中的行人,用人群密集度的变化来表示场景中行人的运动。最后的实验结果也证明了用人群密集度变化来表示行人的运动,能够较好地实现人群异常事件检测,并且其计算速度远快于基于光流场的模型。