论文部分内容阅读
印刷体英文字符识别是模式识别的一个重要分支,具有广泛的应用领域.字符识别主要包括文档切分、单词切分、字符识别及后处理几部分.该文描述的英文字符识别系统实现了从图像扫描到得到识别结果全过程,而字符识别是该文的重点内容,以五十二个印刷体英文字符为研究对象,具体包含了图像预处理、特征提取、建立模板、分类器设计、后处理等步骤.该系统首先利用水平、竖直分别投影的方法进行文档切分得到各个单词的坐标位置,然后利用连通域搜索的方法进行单词切分,将单词切分成字母或粘连字母的组合,作为最基本的识别单位.该文的主要任务是文档切分、字符特征提取、分类器设计以及字母级后处理几个部分,该文中将文档切分作为预处理的一个步骤加以说明.在字符识别之前对初始图像点阵信息进行二值化、滤除干扰噪声、归一化等预处理,去除对后期工作有影响的因素,提高图像质量,使待识别对象达到一个统一的标准,为特征提取和识别做好前期准备.该文对OCR领域中应用比较广泛的方向线素特征、网格特征、外围特征、穿越特征等特征和几种距离分类器分别进行比较分析,并进行了大量的实验,根据英文字符字形比较简单、部分字符字形相似的特点,提取穿越特征和网格特征作为系统的特征,并将街区距离作为系统的分类器.通过实验确定加权因子,对这两种特征赋予不同的权值进行加权融合,使特征具有更强的描述能力.在得到识别结果后要进行后处理,对识别结果进行校对,使系统具有良好的性能.这里主要介绍了对字母的后处理.由于部分字母大小写同形,而且有的大写字母和小写字母字形相似在识别过程中很容易误识,而文档中基本都是句子首字母大写、专有名词首字母大写,因此在识别过程中进行判断,非单词首字母的字母如果被识别为大写字母,一概进行纠正将答案校正为后续候选中的小写字母.这样虽然可能造成缩写等单词识别错误,但是有助于提高整个文档识别系统的识别率.实验结果表明该系统在识别准确率和识别处理时间方面具有良好性能.