论文部分内容阅读
快速、准确的手势跟踪系统具有广阔的应用前景。由于特殊的穿戴式硬件造价高昂,并且设备本身还会限制自由,因此近年来,基于廉价摄像机的手势跟踪系统成为了人本界面的重要研究课题。然而,无论是人手运动的复杂性,还是摄像机本身的噪声、运动模糊与低分辨率,这个课题都对计算机视觉的相关技术提出了挑战。本论文对如何构造一个快速、准确的手势跟踪系统及其相关技术进行了研究。主要内容和贡献归纳如下: (1)基于单个深度摄像机,我们提出了一个实时、鲁棒、基于模型的手势跟踪系统,它可以跟踪人手运动的所有自由度。为解决系统的初始化以及跟踪丢失问题,我们结合人手深度图像的表观特征提出了一种搜索算法。该算法能从含有大量预渲染手势图像的数据库中快速地检索到若干结果,并将它们用于优化器求解的初始点。在优化阶段,我们提出了一个鲁棒的目标函数,以及一种基于重新采样策略的粒子群优化算法。该算法在同样的迭代次数下能更快地找到目标函数的最优解,并且可以借助GPU加速。我们的系统在一块低端GeForce GTX580 GPU上可以达到40帧/秒的跟踪速度,并且能够自动初始化以及从跟踪丢失中恢复。 (2)针对深度摄像机的图像噪声,以及双目摄像机手势跟踪如何获取深度的问题,我们提出了一种常数时间复杂度的加权中值滤波算法。该算法可以利用一幅RGB图像提供权重,来去除同样场景下的另一幅RGB/深度图像的噪声/异常值,并很好地保持物体的边界。这个快速算法使得以往因时间代价过大而无法进行的研究成为了可能。我们将该算法用于增强稠密立体匹配的结果,并得到了一个崭新的发现:有了我们的算法作为后处理,匹配代价聚合甚至只需要使用简单快速的箱式滤波,最终结果却可以与近年来提出的复杂聚合算法十分接近。我们的算法很容易借助GPU加速,从而得到一个实时的立体匹配系统。在手势跟踪中,我们的算法可以利用RGB图像的信息,以保边的方式去除手势深度图像的噪声。甚至在图像处理的其它领域,例如风格化绘制、卡通图像JPEG压缩噪声的修复中都有很好的性能。 (3)快速的人手/相机运动容易导致图像模糊,从而降低立体匹配和手势跟踪系统的精度。但快速的去模糊算法往往假设输入图像被周期延拓,而边界处的不连续会导致最终结果产生严重的振铃效应。已有方法通过反卷积平滑延拓后的图像以抑制振铃效应,但需要求解大型线性方程组来计算延拓区域。对此,我们提出一种快速的计算方法。通过简化延拓区域的定义,并用改进的卷积金字塔进行图像延拓。实验结果表明,在不影响精度的前提下,我们的算法可将延拓区域的计算速度提高两个数量级以上,有效地抑制振铃效应。这在需要实时去模糊处理的手势跟踪系统中具有很强的实用性。