论文部分内容阅读
人体动作识别主要是指利用视觉传感器、动作捕捉系统、可穿戴传感器(如惯性传感器)等数据采集设备,对正在发生的一连串人体动作进行分析,并将其识别为已定义类别中的一种。人体动作识别是计算机视觉、机器学习和模式识别中一个活跃的研究课题,在智能视频监控、自然人机交互、视频内容搜索等诸多领域具有重要的应用价值。基于彩色RGB数据的传统人体动作识别面临着光照变化、人体姿势遮挡、视角变化等问题。
随着新型深度传感器的出现,获取具有三维信息的数据流如深度图像序列和骨架姿势序列变得更加容易。这些数据流可以提供额外的三维信息,其中深度图像对光照变化、人体肤色差异具有鲁棒性;三维骨架姿势序列对视角变化具有鲁棒性,同时具有骨架节点结构信息。基于深度传感器数据的三维人体动作识别成为新的研究方向之一。本文围绕三维动作识别任务,针对多模底层特征提取与描述、特征空间学习与特征编码、多模特征融合与互补性分析、动作分类等关键问题,采用统计机器学习和深度学习理论,对三维动作识别进行深入地研究。主要工作和贡献如下:
(1)视频中动作的特征提取和特征空间分析是影响识别性能的关键问题。针对该问题,基于深度图像序列,提出一种三维时空特征和基于判别式协同字典学习的动作识别方法。首先,在空间维度上将三维深度图像序列投影为三个正交的二维图像序列。在时间维度上采用人体运动能量累积模板的方法来刻画动作的时间演化规律,并提取运动能量累积模板的多尺度空间特征描述符,得到三维时空特征描述符—分层深度运动图多尺度方向梯度直方图(Layered Depth motion Map based HOG,LDM-MsHOG)。该时空特征描述符能够表达人体动作的细粒度外观和运动特点,特别是在捕捉局部时间运动差异和人体动作形态方面有着更突出的表现。基于判别式协同字典学习方法及三维动作的特点,对三维特征字典进行构建和训练。依据字典模型的表征误差和表征向量的判别能力进行动作的分类。实验表明该方法可有效地提高三维人体动作的识别准确率。
(2)针对高维局部特征表征能力强但是鉴别能力弱的问题,通过利用人体动作特征空间中潜在的流形结构,提出基于局部约束仿射子空间特征编码的动作识别方法。基于动作运动能量的归一化函数,每个深度视频序列被分割成一组子序列(即多尺度子动作)。基于多尺度深度运动图(Multi-scale Depth Motion Map,MsDMM),提取局部梯度自相关统计特征(Gradient Local Auto-Correlations,GLAC)来捕捉动作中的运动线索和视觉中的三维几何形状信息,得到三维动作时空特征描述符MsDMM-GLAC。为了获得具有判别性的紧凑表示,提出基于局部约束的仿射子空间特征编码(Locality-constrained Affine Sub-space Coding,LASC)方法,挖掘出深度视频特征空间中的结构、几何分布和邻域高阶统计特性,使得高维局部特征编码后的鉴别能力得到了加强。四个主流动作数据库上与相关方法的实验对比清晰地表明高维局部特征的编码有助于三维动作识别性能的提升,采用LASC特征编码方法的识别性能优于采用局部约束线性编码等方法。
(3)针对三维动作中存在语义相关类别和单模特征鉴别信息不足问题,提出基于骨架序列和深度图像序列的异构特征融合动作识别方法。首先,在深度模态中将视频分割为长度不等但运动能量占比相同的视频片段,并将视频分割参数跨模态迁移到骨架序列中去,进行异构特征的提取,得到两个异构高维底层特征。在这两个异构特征对应的典型相关分析特征空间(Canonical Correlations Analysis,CCA)中,考虑并分析特征的相关性和互补性以进行特征融合。为解决动作类别语义相关问题,引入一种类属局部邻域约束,使得在协同表达学习的同时尽可能地保持类私有属性。该方法命名为类私有保持的协同表示(Class-privacy Preserved Collaborative Representation,CPPCR)。实验表明,提出的双模异构特征融合方法可以有效地缓解语义相关类别之间“子动作共享现象”带来的影响,提高了复杂行为(如双人交互行为)的识别性能。
(4)针对多数统计机器学习中特征提取、特征表达与编码和特征融合等阶段分开研究,不能进行端到端学习的问题,提出一种端到端、多模特征融合的动作识别方法。首先,以目前先进的深度残差聚合网络ResNeXt和三维卷积残差网络ResC3D为基础模型,对子动作视频分段抽样送入双流ResNeXt模型,学习动作中的长时运动信息;其次,提出在不同中间层位置进行网络间特征融合以及基于十字绣信息交互模块的多阶段特征融合方法,在双流ResC3D结构中进行多模特征表达学习。通过将两个模态扩展出来的四种数据流的动作类别预测分数进行决策层融合,得到视频级动作识别结果。在大规模多模动作数据集NTU RGB+D及其他公开数据集上的实验结果表明,多模异构深度学习融合方法可以有效性地提升多模动作识别性能。
随着新型深度传感器的出现,获取具有三维信息的数据流如深度图像序列和骨架姿势序列变得更加容易。这些数据流可以提供额外的三维信息,其中深度图像对光照变化、人体肤色差异具有鲁棒性;三维骨架姿势序列对视角变化具有鲁棒性,同时具有骨架节点结构信息。基于深度传感器数据的三维人体动作识别成为新的研究方向之一。本文围绕三维动作识别任务,针对多模底层特征提取与描述、特征空间学习与特征编码、多模特征融合与互补性分析、动作分类等关键问题,采用统计机器学习和深度学习理论,对三维动作识别进行深入地研究。主要工作和贡献如下:
(1)视频中动作的特征提取和特征空间分析是影响识别性能的关键问题。针对该问题,基于深度图像序列,提出一种三维时空特征和基于判别式协同字典学习的动作识别方法。首先,在空间维度上将三维深度图像序列投影为三个正交的二维图像序列。在时间维度上采用人体运动能量累积模板的方法来刻画动作的时间演化规律,并提取运动能量累积模板的多尺度空间特征描述符,得到三维时空特征描述符—分层深度运动图多尺度方向梯度直方图(Layered Depth motion Map based HOG,LDM-MsHOG)。该时空特征描述符能够表达人体动作的细粒度外观和运动特点,特别是在捕捉局部时间运动差异和人体动作形态方面有着更突出的表现。基于判别式协同字典学习方法及三维动作的特点,对三维特征字典进行构建和训练。依据字典模型的表征误差和表征向量的判别能力进行动作的分类。实验表明该方法可有效地提高三维人体动作的识别准确率。
(2)针对高维局部特征表征能力强但是鉴别能力弱的问题,通过利用人体动作特征空间中潜在的流形结构,提出基于局部约束仿射子空间特征编码的动作识别方法。基于动作运动能量的归一化函数,每个深度视频序列被分割成一组子序列(即多尺度子动作)。基于多尺度深度运动图(Multi-scale Depth Motion Map,MsDMM),提取局部梯度自相关统计特征(Gradient Local Auto-Correlations,GLAC)来捕捉动作中的运动线索和视觉中的三维几何形状信息,得到三维动作时空特征描述符MsDMM-GLAC。为了获得具有判别性的紧凑表示,提出基于局部约束的仿射子空间特征编码(Locality-constrained Affine Sub-space Coding,LASC)方法,挖掘出深度视频特征空间中的结构、几何分布和邻域高阶统计特性,使得高维局部特征编码后的鉴别能力得到了加强。四个主流动作数据库上与相关方法的实验对比清晰地表明高维局部特征的编码有助于三维动作识别性能的提升,采用LASC特征编码方法的识别性能优于采用局部约束线性编码等方法。
(3)针对三维动作中存在语义相关类别和单模特征鉴别信息不足问题,提出基于骨架序列和深度图像序列的异构特征融合动作识别方法。首先,在深度模态中将视频分割为长度不等但运动能量占比相同的视频片段,并将视频分割参数跨模态迁移到骨架序列中去,进行异构特征的提取,得到两个异构高维底层特征。在这两个异构特征对应的典型相关分析特征空间(Canonical Correlations Analysis,CCA)中,考虑并分析特征的相关性和互补性以进行特征融合。为解决动作类别语义相关问题,引入一种类属局部邻域约束,使得在协同表达学习的同时尽可能地保持类私有属性。该方法命名为类私有保持的协同表示(Class-privacy Preserved Collaborative Representation,CPPCR)。实验表明,提出的双模异构特征融合方法可以有效地缓解语义相关类别之间“子动作共享现象”带来的影响,提高了复杂行为(如双人交互行为)的识别性能。
(4)针对多数统计机器学习中特征提取、特征表达与编码和特征融合等阶段分开研究,不能进行端到端学习的问题,提出一种端到端、多模特征融合的动作识别方法。首先,以目前先进的深度残差聚合网络ResNeXt和三维卷积残差网络ResC3D为基础模型,对子动作视频分段抽样送入双流ResNeXt模型,学习动作中的长时运动信息;其次,提出在不同中间层位置进行网络间特征融合以及基于十字绣信息交互模块的多阶段特征融合方法,在双流ResC3D结构中进行多模特征表达学习。通过将两个模态扩展出来的四种数据流的动作类别预测分数进行决策层融合,得到视频级动作识别结果。在大规模多模动作数据集NTU RGB+D及其他公开数据集上的实验结果表明,多模异构深度学习融合方法可以有效性地提升多模动作识别性能。