论文部分内容阅读
为了有效管理视频数据和提取视频中的重要信息,视频自动分类技术成为解决这一问题的主要途径。视频数据由图像帧组成,其内部信息的关系结构比较复杂,基于传统手工设计的特征不能有效的表示视频数据中的复杂信息。利用深度学习技术能够提取较为完整的特征信息,提高视频分类的准确率。因此,本文研究了基于深度学习的视频分类方法,主要工作如下:(1)针对定长的视频序列不能完全覆盖视频全部动作信息的问题,提出了基于三维卷积神经网络的特征融合的视频分类方法。该方法在三维卷积网络模型的基础上,提取不同时间尺度的视频帧序列特征,并对全连接层的特征进行加权融合。在数据集UCF101上对不同的融合方法进行比较,实验结果表明,后端加权融合方法的视频分类准确率较高;然后经过实验确定加权融合的参数,从而构建了不同尺度特征融合的视频分类网络模型。实验结果表明,本方法比主流方法更有效的进行视频分类。(2)针对视频语义变化对视频分类结果的影响以及如何提高视频分类过程中类内相似度和类间离散度等问题,提出了一种基于深度度量学习的多路卷积网络视频分类方法。该方法基于不同尺度特征融合的网络模型,设计了一种多路卷积视频分类网络。为了使网络能够学习类内相似度和类间离散度,在度量学习结构中提出了基于负向样本对语义距离的间隔分配函数,使网络更加注重难分样本。在训练时同时进行度量学习和分类任务。实验结果表明,本方法能够提高视频分类的准确率。(3)为了使分类结果的准确率进一步提高,提出了一种基于多路卷积网络与LSTM的视频分类方法。该方法基于多路卷积网络的模型对视频图像的空间特征进行提取;然后采用LSTM模型进一步得到具有时间动态信息的特征,从而获取了更多视频时序性特征;最后,通过Softmax分类器输出分类的结果以及分类准确率。实验结果表明,本方法能够进一步提高分类的准确率。