论文部分内容阅读
手语识别是人机交互领域的热点话题,是听力障碍人群日常交流中使用的主要工具。所谓的手语,是通过双手和手臂,同时将头部动作、脸部表情和肢体姿态作为辅助进行交流的语言。手语识别是利用计算机视觉、模式识别、机器学习等技术,通过分析手语动作数据,提取高效的特征以描述手语词,最后利用合适的分类器对手语进行分类识别,将手语翻译成文字或语音输出,促进听力障碍人群与其他社会人群的正常交流。 手语识别可分为独立手语词识别和连续手语语句识别两大类。独立手语词识别相较于连续手语语句的识别,难度较小。连续手语识别的难点在于手语语句序列的分割和手语词识别,由于每个人打手语的习惯不同,个体差异性较大,连续手语识别仍是一个具有挑战性的难题。并且非特定人连续手语识别更具有研究意义和实用价值。 本文利用Kinect传感器采集手语的RGB-D数据,建立并公开发布了连续中国日常手语数据集(SDUSign);结合Kinect提供的彩色和深度信息进行手掌分割的研究,并探讨了手语手形特征和运动轨迹特征的提取和融合;针对连续手语识别的两大问题,手语语句分割和手语词识别,采用不同的算法模型,将潜在动态条件随机场(Latent Dynamic Conditional Random Fields,LDCRF)用于解决连续手语的语句分割问题,隐马尔科夫模型(Hidden Markov Model,HMM)用于分割后的手语词识别;基于连续手语样本统计数据,建立了连续手语的语法约束概率模型,优化识别结果。本文主要研究非特定人连续中国手语识别,主要工作如下: 首先,对手语识别问题的研究背景与研究意义进行阐述,研究和说明了目前有关手语识别的国内外的研究方法现状和研究成果现状,并对目前手语识别中存在的主要问题进行了说明,并对本论文的整体写作结构进行介绍。 第二,研究了基于视觉的手语数据的获取,鉴于公开的中国手语数据集较少的问题,建立并发布了基于Kinect的连续中国日常手语数据集。该数据集包括采自17位实验者的40个中国手语词的3400组独立词样本和采自8位实验者的10个连续语句的800组连续手语样本。并详细介绍了采集过程和数据集所包含的数据信息。 第三,研究了手语图像的预处理和特征提取。结合深度图像和彩色图像对手语表达中的双手进行分割,区分出左手和右手。并提取手语动作的手形特征和运动轨迹特征,手形特征包括方向梯度直方图特征(Histogram of Oriented Gradient,HOG)和面积比例特征,轨迹特征包括球坐标位置特征和手部位置特征。通过实验对比,发现结合手形特征和轨迹特征的特征描述方式,可以明显提高手语识别的准确率。 第四,研究了非特定人连续手语识别。阐述了非特定人连续手语识别系统的算法流程。利用LDCRF进行连续语句的分割,并利用最大最小帧约束算法优化分割后的词序列的帧数,避免词片段帧数过多或过少的问题;利用HMM对后续的词片段进行识别,应用基于对SDUSign数据集样本的概率统计生成的语法约束概率模型对分割识别后的语句进行优化,提高语句识别准确率。并进行多组连续手语识别实验,实验表明,本文提出的方法能够有效识别连续手语语句,并能有效消除样本的个体差异性,非特定人连续手语实验结果也较理想,语句分割准确率达80.61%,词识别率达86.25%,语句识别正确率为73.75%,系统表现出优越的性能。 最后,针对本文已完成的连续手语识别的工作进行总结,并展望了接下来连续手语识别研究中亟待解决的问题和解决思路。