论文部分内容阅读
字符识别的研究近年来取得重要进展,目前字符识别方法可以很好地处理背景干净、清晰的字符图像,但对于复杂背景下的、低质量图象的退化字符识别并未获得满意的解决方法。日前有两大问题成为字符识别研究的难点和应用的瓶颈:一是复杂背景下的字符识别,这就需要图像中文字自动检测和文字提取系统将文字从复杂背景中检测提取出来,送入OCR系统进行识别;二是低质量图象的退化字符识别问题,字符图像中存在的字迹模糊、笔画粘连、断裂、分辨率低等退化情况,都大大增加了字符识别难度,这就需要从理论和方法技术上给与有效的解决办法。本文围绕着图像中文字检测和低质量退化字符识别问题开展了相关的研究工作,主要的研究工作包括:
1.在综合集成方法论的指导下,提出了基于多种特征集成型图像中文字检测方法,并建立了相应的图像中文字自动检测系统。根据文字的多种特征,将多种特征融合集成,提出基于多种特征集成型的文字检测方法,适应各种复杂图像中的文字检测,从而提高图像中文字检测系统性能,这里用到了颜色特征、边缘特征、纹理特征及文字本身的一些特征;并且根据文字特征和计算的复杂度,设计多级文字检测器,将多级文字检测器有效地集成连接,每级文字检测器根据上级检测结果选择适合的特征,并用相关处理方法进行检测,逐级修正和精确检测结果,有效地防止漏检、误检现象的发生,提高系统性能,增强系统的稳定性。
2.针对低质量退化字符识别问题,提出了一种字符图像分辨率质量判别方法,并建立了相应的字符图像分辨率判定系统。对不同分辨率图像质量的字符图像,提出了灰度分布特征,基于这种灰度分布特征对各个图像质量级别的字符图像进行分辨率图像质量判定。这种方法计算简单,无需通过与清晰图像作对比,只需通过对训练样本分辨率图像质量学习,就可有效地对输入字符图像分辨率的质量进行判断。
3.本文将字符图像分辨率质量判定方法应用在多分辨率退化字符识别上,提出了多分辨率自适应退化字符识别方法,并建立相应多分辨率退化字符识别系统。本文将图像质量信息融进字符识别过程,采用集成型模式识别技术,构建多个分类器集成的网络弥补单个分类器识别率低、稳定性差的缺陷,提出了自适应识别分类算法,使识别率达到一个比较高的水平,初步解决低分辨率图像中退化字符识别的若干理论和技术问题。本文以智能理论和综合集成的构思为基础,开展多分辨率退化字符识别技术的研究工作,在国内是创新的,在国际是前沿的。这项工作的开展只是探索性的一小步,目前还处于研究的探索阶段。