基于深度数据的人体动作分割与识别

来源 :南京大学 | 被引量 : 0次 | 上传用户:wujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体动作的分割和识别一直是计算机视觉领域一个重要的课题。在人机交互、视频监控自动化、游戏控制系统等应用场景下,准确的动作识别都是整个系统中至关重要的一环。相较于单纯的二维视频数据,如今三维数据保留了以前缺失的“z轴”信息,因此深度数据在动作识别上拥有明显的优势。另一方面,对视频流进行动作分割也是一个颇有难度的任务,目前绝大部分已提出的基于深度视频的动作识别算法均是基于已经人工划分好的视频片段来进行的,我们通过对这些片段数据的训练,往往可以得到很高的动作识别准确率,但是当应用场景换到实时的视频流下,就难维持很高的准确率了。在本文中,我们提出了几套能够分割视频流中连续人体动作并分别识别的解决方案。我们使用的数据为人体三维深度数据(Kinect捕获),具体表现形式为人体骨架节点位置和深度图像帧。这两种类型的数据均包含了丰富的信息以助于我们从视频中提取特征,但同时数据中也包含了不少噪音。对于骨架节点,我们主要计算它们之间的空间位置关系;对于深度图像帧,我们基于Depth Motion Map (DMM),以及扩展后的DMM金字塔(DMM-Pryamid)进行多种特种提取操作。此外我们针对相应特征分别使用了传统的sVM分类器,二维/三维卷积神经网络,循环神经网络来进行训练和识别。对于动作分割,我们提出了两种方法,其一为基于概率分布差(Probability-Distribution-Difference, PDD)的动态动作边界探测框架;另一项为基于maximum subarray search的时间平滑化方法。上述的分割算法均为在线算法,可以处理实时的深度视频流。我们在多个领域内广泛使用的数据集上完成了多项实验,并且与现今其它方法相比,我们的方法在准确率、性能等关键指标上具有优势。
其他文献
为了使从医学影像设备获取的医学图像更好地服务于现代医学诊断和辅助治疗,需要对医学图像进行滤波处理,使其保留具有重要诊断意义的边缘细节信息。综合分析比较各种去噪算法,基
图像作为一种多媒体信息载体,凭借其直观的表达方式和低廉的传输开销,在信息的衍生和传播过程中发挥着越来越重要的作用。然而,随着拍照设备的日益普及和社交网络的迅速推广,互联
该文结合笔者在天津内燃机厂开发Intranet环境下企业综合信息系统的实践,依据软件工程的原理,从技术和应用角度对建设企业综合信息系统进行了初步探讨和研究.该文首先介绍了
在模式识别问题中的分类器设计中,正则化技术被广为使用,并在理论与实际应用上取得了瞩目的成就。但是,正则化技术也面临着如何提高分类器的推广性能、如何更多的融合数据的
蜕变测试充分挖掘成功测试用例所包含的信息并加以应用,有效地解决了软件测试的Oracle问题。影响蜕变测试效果的两大关键因素是原始测试用例的生成和蜕变关系的选择/生成,本文
学位
该文就是对VPN的各种实现机制,包括VPN的逻辑结构、寻址方式、封装方案、路由机制、安全性能、传输效率、等各方面进行分析,对实现VPN的一些基本模型,如使用IP Sec ,VPND,PPT
近几年MapReduce的出现推动了云计算技术的快速发展,低成本与高可伸缩性使其得到广泛应用。同时,为了增强了用户代码的可维护性,用于将高层查询语言转换为MapReduce的Hive、Pig
计算机博弈就是计算机下棋。图灵测试便是要通过下棋检测计算机智能水平的高低。计算机博弈属于人工智能领域的一个重要分支。计算机的博弈水平代表了计算机的智能水平。让计
  本文首先分析了个人信息的内涵,个人信息管理系统的现状及存在问题,并提出了一个基于XML文档进行个人信息管理的方案。然后在简要介绍XML技术的基础上,演示了一项个人信息的