论文部分内容阅读
在人体行为识别领域,国内外对视频类的动作识别算法研究如火如荼。虽然,目前对静止图像识别的研究取得了很大的成功,但是对视频类的动作识别研究仍然是一个具有挑战性的课题。本文针对彩色信息(RGB视频帧)中缺乏不易受光照等环境因素影响的深度信息,并对沿着视线方向的动作缺乏识别能力的问题,提出一种基于光流和深度运动图(Depth Motion Map,DMM)的人体动作识别算法。其主要研究内容如下:(1)本文将深度序列在三个正交的笛卡尔平面上的进行投影,从而有获取DMM特征,以表示一个动作的运动特征。另外,为了减小类内变异性,本文将DMM调整为固定的尺寸,并且把每个DMM的固定尺寸设置为所有尺寸平均值的一半。由于所提出的特征描述符具有高维数,采用了核熵成分分析(Kernel Entropy Component Analysis,KECA)进行降维,最后将处理后的DMM特征作为本文深度流网络通道的输入。(2)本文利用长短期记忆网络(Long Short Term Memory networks,LSTMs)对长序列历史信息进行控制和记忆具有明显优势的特点,设计了一种LSTMs网络结构。本文LSTMs网络结构是通过多个LSTM记忆单元构成的。同时本文将三个识别流输出的空间特征、时间特征和深度特征构造成特征矩阵,其特征矩阵按时间维度分为多个时间片段,再将它们按顺序输入LSTMs网络层,并根据其时间轴上的关联特性将本文特征矩阵实现融合。(3)为了融合不易受光照等环境因素影响的深度信息和RGB视频序列中丰富的细节信息。首先,本文在融合光流信息和彩色信息情况下,同时也从同步的深度视频序列获取深度信息,并融合在本文框架中,为本文框架提供深度特征,以增强特征互补性;其次,把三种特征信息分别作为基于ResNet101的空间流网络、时间流网络和深度流网络的输入;然后通过LSTMs进行特征融合;最后将特征送入具有全连接的Softmax层,从而得到每个动作类别的概率值。实验结果表明,在具有挑战性的UTD-MHAD数据集和MSR Daily Activity 3D数据集上的获得较好的识别效果。