论文部分内容阅读
近年来,借助着视频图像处理技术和人工智能理论的蓬勃发展,人们对监控内容视频自动分析技术的需求也越来越大。在校园环境,视频监控系统已经逐步覆盖到各个教学楼,以及教室场景中。因此,为了响应建设智慧型校园的号召,借助于深度学习理论在视频图像处理的强大支撑,研究相关的图像识别与检测技术对学校教学管理具有重要的意义。在此背景下本文主要研究复杂教室监控场景下人体姿态检测技术,具体包括两个方面工作:第一,本文提出了一种基于改进的Faster R-CNN的人体姿态检测的方法。该方法主要研究教室监控场景下利用区域卷积神经网络进行人体姿态检测的问题。首先,针对采用数据集成像质量不高导致目标检测困难的问题,本文采用检测精确度更高的Faster R-CNN网络作为基础框架,用来提取高质量的目标候选区域。然后,利用级联的ROI Pooling方法将高层卷积特征和浅层卷积特征进行合并,使得合并后的特征兼顾高分辨率信息和语义信息。最后,通过局部特征保留学习使得属于同一类别的特征在特征空间上的分布更加接近,让整个网络具有更强的分类能力。实验结果表明,对比目前的检测方法,本文提出的算法具有更高的精确率。同时,该方法也存在一些不足。比如,该方法时间开销比较大,无法满足实时性的要求。此外,候选目标提取网络中可能会包含一些虚假目标,最后的检测结果中可能会包含“虚警”等。第二,针对前文工作的不足,本文提出了一种实时的人体姿态检测算法。该方法以实时的轻量化目标检测网络为基础,通过特征融合机制对基础网络进行改进。首先,得益于语义分割网络能生成强语义信息的特征图,本文使用了一个基于弱分割的语义信息补偿网络,将补偿网络的卷积特征与基础网络的浅层特征相结合,增强浅层特征的语义信息。此外,通过基于注意力机制的全局激活模块加大卷积特征关键通道的权重,间接增强了卷积特征的语义信息。最后,采用了基于空洞卷积的Inception网络结构,使得该模块的卷积感受野变大,增强局部信息表达能力。实验结果表明,本方法相比前文方法能获得更好的检测精确率,并且能获得较好的实时性能。