论文部分内容阅读
近年来,基于卷积神经网络的深度学习算法在文本处理、语音识别、图像视频分析、计算机视觉等多个领域都获得了巨大的成功,特别是在图像识别领域当中,基于深度学习的图像分类与检测技术在大量具体、专业的研究场景下开始发挥着重要的作用。例如,相关研究者在植物学领域通过区域选取和特征学习来实现花卉分类以及在各种自动安防、智能交通、自动驾驶等领域对车辆和行人进行检测等。而利用深度学习技术在视频场景当中对人体行为进行识别是当前计算机视觉领域的研究热点之一,近年来得到了学术界及工程界的广泛重视,人体行为识别相关技术在智能监控、人机交互、虚拟现实和基于内容的视频检索与解说等方面有着广泛的应用前景和潜在的经济价值。同时,在课堂场景中,识别学生的课堂行为对学生的学习状态、学习质量以及教师教学效果的评价具有重要的参考意义。本文将深度学习技术应用到大学课堂场景当中,从学生低头抬头的角度出发,对学生进行检测并识别其行为状态,本文主要的工作包括如下几个方面:首先对国内外的深度学习相关技术以及行为识别相关理论进行梳理,结合大学课堂特定场景下的特点以及各种算法的优劣,提出将深度学习技术应用到大学课堂场景当中进行行为识别,并通过详细介绍深度学习相关理论,为深度学习技术应用在具体场景当中奠定了基础。其次,从课堂视频整体的角度出发,识别所有学生课堂的低头抬头行为状态从而得到每堂课的抬头率。具体做法是:选择检测效果最好的Faster R-CNN算法,并与根据数据集特点来修改Anchor大小后的算法进行对比,提取视频帧后对课堂的低头抬头状态进行识别。实验结果表明,修改参数后的Faster R-CNN算法收敛速度更快,且能够准确的检测到学生并识别其低头抬头状态。在此研究基础上,我们可以得到每堂课的抬头率变化以及一段时间内的平均抬头率。再次,从课堂中每个学生的角度出发,识别每个学生低头抬头的具体行为。具体做法是:首先定义好每个学生低头抬头行为状态的类别,并制作好相关数据集,然后选择检测效果与识别速度比较理想的Yolo-v3算法将学生序列进行提取,利用ResNet算法对提取到的学生进行行为状态分类。结果发现,在大学课堂场景下,能够提取到视频中的大部分学生的行为序列并识别其行为,从而得到相关学生的行为状态变化。最后,在前面研究的基础上,将整个课堂的低头抬头行为识别和每个学生的行为状态识别结合在一起,计算每个算法进行识别所需要花费的时间,以及通过界面可视化,实现基于深度学习的课堂低头抬头行为状态识别与应用系统,并对相关方法和存在的问题进行总结。