论文部分内容阅读
随着传感器技术、互联网的快速发展和机器学习理论的成熟,视频人体动作识别技术越来越得到研究人员的关注。人体动作识别技术具有较高的学术价值和商业价值,可以在人机交互、智能监控、运动分析、视频检索等多个场景得到应用。传统的人体动作识别方法的效果很大程度上依赖于人工提取出的特征的优劣,特征的计算过程复杂,提取出的特征泛化性不强。本文采用深度神经网络模拟生物大脑对于视觉信息的处理过程,实现视频人体动作特征提取,能够适应复杂环境下的人体动作识别,简化了传统人工特征提取的流程,同时提高识别准确率。首先,本文构建了扩展到三维的3D卷积神经网络模型。考虑到运动过程中人体变化显著区域对动作识别的影响,本文使用三帧差法计算人体运动前后变化区域得到帧间差分通道,同原始灰度视频通道一起构成双通道输入进本文构建的3D卷积神经网络,进行特征提取。在KTH数据集上的实验表明,使用本文构建的双通道3D卷积神经网络可以达到92.5%的识别准确率,在减少特征提取工作了的同时获得了较高的算法鲁棒性。另外,本文通过对比实验研究了3D卷积神经网络中网络结构和各类参数对识别性能的影响,其中,3×3×3的卷积核识别准确率略低于5×5×5,但有着更高的效率;对数似然代价函数相较于普通的均方差函数有着更快的收敛速度;dropout可以在一定程度上避免小数据集上的过拟合。然后,为了能够在UCF-101这类数据量大、视频内容丰富、背景环境复杂的数据集上提取出足够的特征,本文利用利用迁移学习原理,使用CNN预训练模型,将预训练模型在ImageNet数据集上训练好的分类网络的权值迁移到本文使用的UCF-101人体动作识别数据集上进行微调,辅助提取视频帧中的人体动作特征。针对现实中的人体动作执行时间差异,本文并未使用传统的帧对齐方式,而是使用LSTM网络对变长人体动作序列进行识别。使用CNN预训练模型和LSTM网络的人体动作识别模型在UCF-101数据集上取得了88.7%的准确率,验证了该模型在视频人体行为识别上的有效性。