论文部分内容阅读
手语是聋哑人日常交流必不可少的手段.作为一种高度结构化的手势语言,其研究涉及到多个学科,尤其是模式识别和人工智能的基本研究案例.同时,手语识别可以辅助聋人使用手语和正常人交流,进行机器人的示范学习并可以作为虚拟现实系统中的多模式接口等.基于视觉的手语识别可以提供较为自然的人机交互方式.因此无论从理论还是应用角度都有较高的研究价值.综合现在的研究现状,视觉手语识别还存在以下的问题,比如:特征提取的鲁棒性和速度有待于提高,隐马尔可夫模型对于手语中的某些词并不能很好的区分,徒手的视觉手语识别中缺乏有效的特征描述方法等.针对上面的问题,该文进行了了如下的研究工作:1.为减少光线和背景因素的影响,并能提高前端视频预处理的速度,我们采用基于颜色通道的背景去除方案取代颜色和边缘通道相结合的方案.提出了一种动态的预测和更新背景去除和双手检测的方法,通过缩小目标搜索范围来减少系统的运行时间.2.在中国手语中存在着一类词,它们具有相似的运动趋势,但在运动方向和运动幅度上有较细微的差别,常规的隐马尔可夫模型往往将这些词错误识别,针对这类问题,提出了基于条件线性高斯的自回归隐马尔可夫模型(Auto-regressive Hidden Markov Models or ARHMMs)来对手语词进行建模.给出ARHMM各个参数的估计公式,包括回归矩阵和协方差矩阵的估计.并提出了将HMM和ARHMM方法相结合的双层识别结构,来充分利用两种模型的优点.识别结果由原来的92﹪达到96.6﹪.3.在徒手视觉手语识别方面,提出了多尺度形状描述子的概念,并将其应用于手势建模和静态的手势识别.该方法利用圆形的轴对称和中心对称性质,考察每一手势在圆周上的肤色与非肤色区域的分布,并从多个尺度来描述每一手势.具有旋转和尺度放缩的不变性.该方法可以解决手势的精细刻画问题并可以对相似手势进行区分.