论文部分内容阅读
3D人体行为识别是计算机视觉领域的一个重要的研究热点,它通过对骨骼信息或者深度图信息的研究分析从而确定人体的行为模式,在虚拟现实、医疗看护、人机交互等领域有着广泛的应用。能否有效挖掘行为在时间和空间上的结构关系是行为识别的关键。为此,本文提出了基于时空结构关系的3D人体行为识别方法,主要从强化空间信息和时序信息以及时空结构关系互补方面进行研究。在NTU RGB+D数据集上的实验表明,本文的方法能够捕获鲁棒的行为时空结构关系,有效提高行为识别的准确率。本文主要研究工作如下:(1)针对现有大多数基于递归神经网络(Recurrent Neural Network,RNN)的方法空间信息获取不足的问题,提出基于骨骼空间信息增强的3D人体行为识别。首先提取骨骼点的方向向量特征形成增强的骨骼空间特征表示,学习行为在空间上的方向信息,然后将增强的骨骼空间特征输入到堆叠残差双向长短时记忆单元(Residual Bidirectional Long Short Term Memory,Res-Bi-LSTM)中建模时间上的长短时依赖关系,结合两者能够有效捕获行为的双向时空上下文信息。实验结果表明,这种方法能够有效地加强空间方向信息的表达并且建模双向时空结构关系,相比于传统方法获得了更好的识别效果。(2)针对传统方法只从单一时间粒度上获取行为的时空信息,无法考虑到不同时长之间的结构关系,提出基于多尺度时间卷积网络(Multi-scale Temporal Convolutional Networks,Multi-scale TCN)的3D人体行为识别。该方法以增强的骨骼空间特征作为输入能够提升行为空间信息的表达能力,同时运用两种不同尺度的时间卷积进一步加强行为时序上的建模。尺度小的卷积能够获取短时快速的行为特征,尺度大的卷积能够捕获长时慢速的行为特征,不同尺度的卷积充分考虑了不同时长的动作之间联系,能够应对复杂的行为变化。实验结果表明,这种方法能够兼顾不同时长的行为特征,显著地提升了行为识别的准确率。(3)针对多尺度时间卷积网络模型表现力不充分,提取的行为时空结构关系不够鲁棒的问题,提出基于时空结构优化的3D人体行为识别。首先,为了不受传统手工特征的约束,使用时空图卷积网络(Spatial Temporal Graph Convolutional Networks,ST-GCN)自动的从骨骼数据中深度挖掘行为的时空信息。Multi-scale TCN以增强的骨骼空间信息作为输入,能够获取行为空间上的方向信息并且建模不同时长下的时序结构,而ST-GCN在原始骨骼数据驱动下通过图卷积能够建模更高层的空间信息。为了充分利用两者的优势,最后采用线性融合的方式进行后期融合。实验结果表明,通过Multi-scale TCN与ST-GCN的融合能利用两个模型的优势,学习到更鲁棒的时空结构关系,相比于单模型的方法准确率得到了进一步的提升。