基于深度图像的人体检测、跟踪和行为识别

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:liuhongyu1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体检测、跟踪和行为识别是计算机视觉领域的重要课题,在智能监控、辅助驾驶、智能导航、人机交互等领域具有很好的应用前景。传统的基于彩色图像的人体检测、跟踪和行为识别,易受到光照变化、遮挡以及复杂环境背景等因素的干扰,而深度图像能提供空间信息,为消除这些因素的干扰提供了可能。如何利用深度信息描述人体的特征,实现鲁棒的人体检测、跟踪和行为识别,具有一定的理论和应用价值。  本文针对基于深度信息的人体检测、跟踪和行为识别的研究,主要工作有:1.基于深度图像的CoHOD人体检测方法  基于TOF相机获得的深度图像,针对人体目标的检测问题,拓展已有的方向梯度直方图特征,将HOD特征表示与共生矩阵结合,提出了描述深度图像的人体特征的CoHOD方法。  2.融合深度信息与其他传感信息的行人跟踪  我们利用深度相机的深度数据进行局部精确定位,修正惯性传感器的累积定位误差,然后将视频数据与修正的惯性传感器定位数据融合,实现大场景长时间的目标跟踪。  3.基于深度图像序列的P-SNV人体行为识别方法  我们提出一个基于多维金字塔向量的行为识别的方法,多维金字塔向量是深度序列中,每个局部时空单元在不同分辨率下的曲面法向量的聚合。在计算多维金字塔向量字典和系数时,采用组稀疏字典学习方法;采用自适应的时空金字塔模型,将视频序列化分成一些时空单元的集合,将从所有时空单元提取的特征向量连接作为最终的描述符(P-SNV)。  本文主要在以下几个方面取得了一定的突破和进展:  1.提出了CoHOD特征表示符  针对深度图像的人体检测,提出了CoHOD特征表示符,采用一系列深度共生矩阵描述深度图像中的人体区域,实现人体检测和定位。该特征在已有的方向梯度直方图特征基础上进行了拓展,能描述更多的空间梯度关系,从而能更准确的描述复杂的人体结构和细节变化,同时,CoHOD特征只计算像素梯度的方向,不计算它的大小,大大减少了计算量。  2.提出了一种融合的目标定位方法  为了解决惯性传感器定位的累积误差问题,我们采用深度相机捕获的深度图像序列,实现局部目标定位;最后通过TPS变形模型修正惯性传感器定位的累积误差,解决了用惯性传感器进行长时间跟踪的一个关键问题。  3.提出了一个基于多维金字塔向量的行为识别的新方法  在基于深度序列的人体行为识别方面,提出了一个新的描述符(P-SNV)。在特征提取阶段,提取不同尺度下的Polynormal特征并将其组合成新的PyramidPolynormal特征,用以表达一个局部子立方体的多层表观信息;聚合每个局部时空单元在不同分辨率下的曲面法向量,即多维金字塔向量;采用自适应金字塔模型,连接所有时空单元提取的特征向量,作为最终的描述符(P-SNV)。  4.提出了新的组稀疏约束字典学习方法  在特征编码阶段,计算多维金字塔向量字典和系数时采用组稀疏字典学习方法,记录多维金字塔向量与字典每个原子之间的差异。在不同向量上加上对应的系数权重,通过空间平均池和时间最大池对每个原子进行聚合。基于组稀疏编码的方法,克服了传统的稀疏字典学习模型的系数分布随机、不能用于分类的缺点。在稀疏编码阶段,由于同一类的特征倾向于选择同一组中的原子,本文提出的新的组稀疏字典学习方法,学习的字典更具有判别力。
其他文献
为了帮助聋人更好地融入正常人的社会,改变他们的弱势地位,越来越多的研究人员参与到手语的研究领域中。近年来,一种通过合成虚拟人手语动画的方法被提出来,便于聋人通过观看手语
数据获取(Data Acquisition,简称DAQ)系统是大型高海拔空气簇射观测站(LHAASO)项目研究的重要课题之一。本篇论文主要目标是在实验预研阶段解决数据获取软件的关键问题,为实验建
互联网经过多年的发展,已经日渐普及。一提到网络,人们就会想到Web, Web确实为互联网的发展做出了巨大的贡献。Web服务因其对异构平台应用程序互操作提供支持,成为开发Web应
可达性是区域交通网络状况的一项综合性评价指标,广东省作为全国最早实行对外开放的省份之一,经济和交通高速发展,交通可达性及其演化与区域经济发展水平高低有着密切的关系。 
随着Android智能于机的普及,Android应用程序的数量正在迅猛增长,截止到2013年4月,官方电子市场中的应用数量已经达到了68万。由于Android开放的生态系统和Android电子市场缺乏
LTE-A系统的频率复用因子是1,可以有效提升频谱利用率,但是会增大系统干扰,降低小区边缘用户的性能。CoMP (Coordinated Multi-Point Transmission/Reception,协作多点传输/
无线视频显示系统可以省去繁琐的视频信号线,以无线传输的方式传输视频内容。显示设备可以摆脱视频线长度的限制,可在无线传输范围内随意摆放,为用户提供更好的使用体验。随
鬼成像是一种利用光场二阶相干性进行成像的技术。不同于传统成像,鬼成像只需要用一个没有空间分辨能力的桶探测器获取来自物体的光,而具有空间分辨能力的探测器用来探测光源信
针对矿井井下通信及数据协调处理调度,研究其中的多源数据采集融合、监测监控方法、无线传感器网络路由协议、多传感器节点布置策略、多网互联远程监测系统构建等应用基础科学
远程医疗是现代信息技术与传统医疗相结合的产物。信息技术的发展和医疗服务的多样化使得远程医疗的内容更加丰富,远程医疗技术的发展需要利用高速网络进行数字、图像、语音、