论文部分内容阅读
人体检测、跟踪和行为识别是计算机视觉领域的重要课题,在智能监控、辅助驾驶、智能导航、人机交互等领域具有很好的应用前景。传统的基于彩色图像的人体检测、跟踪和行为识别,易受到光照变化、遮挡以及复杂环境背景等因素的干扰,而深度图像能提供空间信息,为消除这些因素的干扰提供了可能。如何利用深度信息描述人体的特征,实现鲁棒的人体检测、跟踪和行为识别,具有一定的理论和应用价值。 本文针对基于深度信息的人体检测、跟踪和行为识别的研究,主要工作有:1.基于深度图像的CoHOD人体检测方法 基于TOF相机获得的深度图像,针对人体目标的检测问题,拓展已有的方向梯度直方图特征,将HOD特征表示与共生矩阵结合,提出了描述深度图像的人体特征的CoHOD方法。 2.融合深度信息与其他传感信息的行人跟踪 我们利用深度相机的深度数据进行局部精确定位,修正惯性传感器的累积定位误差,然后将视频数据与修正的惯性传感器定位数据融合,实现大场景长时间的目标跟踪。 3.基于深度图像序列的P-SNV人体行为识别方法 我们提出一个基于多维金字塔向量的行为识别的方法,多维金字塔向量是深度序列中,每个局部时空单元在不同分辨率下的曲面法向量的聚合。在计算多维金字塔向量字典和系数时,采用组稀疏字典学习方法;采用自适应的时空金字塔模型,将视频序列化分成一些时空单元的集合,将从所有时空单元提取的特征向量连接作为最终的描述符(P-SNV)。 本文主要在以下几个方面取得了一定的突破和进展: 1.提出了CoHOD特征表示符 针对深度图像的人体检测,提出了CoHOD特征表示符,采用一系列深度共生矩阵描述深度图像中的人体区域,实现人体检测和定位。该特征在已有的方向梯度直方图特征基础上进行了拓展,能描述更多的空间梯度关系,从而能更准确的描述复杂的人体结构和细节变化,同时,CoHOD特征只计算像素梯度的方向,不计算它的大小,大大减少了计算量。 2.提出了一种融合的目标定位方法 为了解决惯性传感器定位的累积误差问题,我们采用深度相机捕获的深度图像序列,实现局部目标定位;最后通过TPS变形模型修正惯性传感器定位的累积误差,解决了用惯性传感器进行长时间跟踪的一个关键问题。 3.提出了一个基于多维金字塔向量的行为识别的新方法 在基于深度序列的人体行为识别方面,提出了一个新的描述符(P-SNV)。在特征提取阶段,提取不同尺度下的Polynormal特征并将其组合成新的PyramidPolynormal特征,用以表达一个局部子立方体的多层表观信息;聚合每个局部时空单元在不同分辨率下的曲面法向量,即多维金字塔向量;采用自适应金字塔模型,连接所有时空单元提取的特征向量,作为最终的描述符(P-SNV)。 4.提出了新的组稀疏约束字典学习方法 在特征编码阶段,计算多维金字塔向量字典和系数时采用组稀疏字典学习方法,记录多维金字塔向量与字典每个原子之间的差异。在不同向量上加上对应的系数权重,通过空间平均池和时间最大池对每个原子进行聚合。基于组稀疏编码的方法,克服了传统的稀疏字典学习模型的系数分布随机、不能用于分类的缺点。在稀疏编码阶段,由于同一类的特征倾向于选择同一组中的原子,本文提出的新的组稀疏字典学习方法,学习的字典更具有判别力。