论文部分内容阅读
在信息化时代的今天,应用计算机处理识别文字信息已经成为了一个非常重要的研究领域。汉字识别技术中的印刷体字符识别技术和联机手写体字符识别技术得到了飞速发展,现已逐步成熟应用到了实用领域。因此,现在主要的研究热点已经转移到脱机手写体字符识别上来。脱机手写体字符识别技术广泛应用于文字资料、金融票据、档案处理等方面。然而在书写过程中存在很大的随意性,书写风格因人而异,特别是存在着比较多的技术难点,对于手写体汉字的处理还不能很快达到实用要求,目前还处在实验室研究阶段,其识别已经成为模式识别领域的最具挑战性的课题之一。
但在具体应用中,许多领域只要求对于小类别手写体汉字进行识别。比如当前最热门的金融票据处理中。由此,本文对于金融票据中的大写金额字符建立识别系统是有着重要的现实意义的。同时对于进一步研究大类别的手写体汉字识别有着一定的指导作用。
本文以脱机手写体金额大写字符作为主要研究对象,详细的介绍了脱机手写体字符识别系统中的预处理方法,包括二值化、倾斜度调整、平滑和细化处理、去噪、倾斜度二次校正、字符分割、字符归,化等部分,针对于传统算法中存在的缺陷,查阅相关文献和资料,进行了改进,重点研究了汉字的结构特征和统计特征,提出了一种将基于黑像素百分比的网格特征和基于四个方向投影的边界链码特征相结合的混合特征提取方法,在考虑到系统识别时间的前提下,这种混合特征的提取方法能够较大幅度的提高识别概率。
详细的分析了隐马尔可夫模型的基本理论和方法,通过对于混合特征的提取,结合隐马尔可夫模型建模性能良好的优点,应用HMM模型的经典算法对样本进行训练和参数的优化,在识别时,采用了通过模糊判决进行预分类,然后采用投票法则中的Bagging算法,进行多方案的集成,使其优势互补,系统达到了比单个分类器更好的识别效果和性能。通过大量的实验验证和对比分析,证明了HMM模型在脱机手写体字符识别方面的有效性,以及本文所采用的识别方法的可行性,并且识别率和识别时间优于现有的一些算法。