论文部分内容阅读
人体动作的分割和识别一直是计算机视觉领域一个重要的课题。在人机交互、视频监控自动化、游戏控制系统等应用场景下,准确的动作识别都是整个系统中至关重要的一环。相较于单纯的二维视频数据,如今三维数据保留了以前缺失的“z轴”信息,因此深度数据在动作识别上拥有明显的优势。另一方面,对视频流进行动作分割也是一个颇有难度的任务,目前绝大部分已提出的基于深度视频的动作识别算法均是基于已经人工划分好的视频片段来进行的,我们通过对这些片段数据的训练,往往可以得到很高的动作识别准确率,但是当应用场景换到实时的视频流下,就难维持很高的准确率了。在本文中,我们提出了几套能够分割视频流中连续人体动作并分别识别的解决方案。我们使用的数据为人体三维深度数据(Kinect捕获),具体表现形式为人体骨架节点位置和深度图像帧。这两种类型的数据均包含了丰富的信息以助于我们从视频中提取特征,但同时数据中也包含了不少噪音。对于骨架节点,我们主要计算它们之间的空间位置关系;对于深度图像帧,我们基于Depth Motion Map (DMM),以及扩展后的DMM金字塔(DMM-Pryamid)进行多种特种提取操作。此外我们针对相应特征分别使用了传统的sVM分类器,二维/三维卷积神经网络,循环神经网络来进行训练和识别。对于动作分割,我们提出了两种方法,其一为基于概率分布差(Probability-Distribution-Difference, PDD)的动态动作边界探测框架;另一项为基于maximum subarray search的时间平滑化方法。上述的分割算法均为在线算法,可以处理实时的深度视频流。我们在多个领域内广泛使用的数据集上完成了多项实验,并且与现今其它方法相比,我们的方法在准确率、性能等关键指标上具有优势。