论文部分内容阅读
本文针对手语识别中的四个问题:非特定人、大词汇量、连续手语、如何利用语言模型来提高手语识别率,分别建立合适的模型来解决这些问题:1.针对非特定人手语识别的特点:1)数据多且差异大,导致模型训练难收敛;2)从不同人数据中提取出有效的共同特征缺乏,本文提出了自组织特征映射/隐马尔可夫模型(SOFM/HMM)相结合的模型.该模型以SOFM隐式地提取不同人特征作为连续HMM的输入,将数据变换成一个紧凑、重要的低维表示形式,该形式能够更好地被HMM的发射概率模型化.2.为了克服大词汇量识别所带来的时间复杂性增加的困难,在SOFM/HMM模型的基础上,提出了具有异构分类器的模糊决策树用于大词汇量手语识别.由于不同的特征对于手势词具有不同的模式区分性,因此,本文提出相应的分类器来分层决策手语的属性.基于高斯混合模型的单双手分类器和基于有穷状态机的手形分类器首先被用来消除不可能的候选,然后在底层仅包含很少一部分候选词集的非叶子节点上,使用SOFM/HMM方法进行分类.3.在连续手语识别中,面临的主要挑战是如何减轻相邻手语词之间运动插入的影响.本文从基于分割和建立过渡模型的思想入手,分别提出基于精简循环网/隐马尔可夫模型(SRN/HMM)相结合的模型和基于过渡模型的方法进行连续手语识别.1)基于SRN/HMM模型的方法是将连续手语识别问题分解成各孤立词识别的分治方法.把改进的SRN作为连续手语的段边界检测器,SRN的分段结果作为HMM框架中的状态输入,在HMM框架里使用网格Viterbi算法搜索出一条最佳的手语词路径.2)基于过渡模型的方法是将词与词之间的过渡动作也建立相应的模型来进行识别.为了克服词与词之间大量的过渡模型,本文提出了时序聚类算法,它能将相似的过渡动作聚成一类,从而增强过渡模型的推广性,同时避免训练数据的稀疏问题.实验结果表明,基于过渡模型的方法在大词汇量连续手语识别中取得了较好的效果.4.在统计语言模型中,如何将多种语言学知识融入到一个统一的框架下,作为长距离的约束关系来提高手语识别率是一个挑战.本文提出了一个融入语言学结构知识的改进最大熵语言模型.该模型把基本短语的结构知识与Trigram结合,Trigram作为词之间短距离的约束,而用分析出基本短语的结构知识来表示句法结构中长距离的约束关系;将语法、语义、词汇这些语言学知识统一在最大熵框架下.实验结果表明,该模型比Trigram在分支度上提高24%左右.同时提出手语同义词的概念,通过手语同义词的扩展,将改进的最大熵语言模型作为连续手语识别的后处理,有效地提高了手语识别的性能.