印刷体英文字符识别系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:www4006804680com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
印刷体英文字符识别是模式识别的一个重要分支,具有广泛的应用领域.字符识别主要包括文档切分、单词切分、字符识别及后处理几部分.该文描述的英文字符识别系统实现了从图像扫描到得到识别结果全过程,而字符识别是该文的重点内容,以五十二个印刷体英文字符为研究对象,具体包含了图像预处理、特征提取、建立模板、分类器设计、后处理等步骤.该系统首先利用水平、竖直分别投影的方法进行文档切分得到各个单词的坐标位置,然后利用连通域搜索的方法进行单词切分,将单词切分成字母或粘连字母的组合,作为最基本的识别单位.该文的主要任务是文档切分、字符特征提取、分类器设计以及字母级后处理几个部分,该文中将文档切分作为预处理的一个步骤加以说明.在字符识别之前对初始图像点阵信息进行二值化、滤除干扰噪声、归一化等预处理,去除对后期工作有影响的因素,提高图像质量,使待识别对象达到一个统一的标准,为特征提取和识别做好前期准备.该文对OCR领域中应用比较广泛的方向线素特征、网格特征、外围特征、穿越特征等特征和几种距离分类器分别进行比较分析,并进行了大量的实验,根据英文字符字形比较简单、部分字符字形相似的特点,提取穿越特征和网格特征作为系统的特征,并将街区距离作为系统的分类器.通过实验确定加权因子,对这两种特征赋予不同的权值进行加权融合,使特征具有更强的描述能力.在得到识别结果后要进行后处理,对识别结果进行校对,使系统具有良好的性能.这里主要介绍了对字母的后处理.由于部分字母大小写同形,而且有的大写字母和小写字母字形相似在识别过程中很容易误识,而文档中基本都是句子首字母大写、专有名词首字母大写,因此在识别过程中进行判断,非单词首字母的字母如果被识别为大写字母,一概进行纠正将答案校正为后续候选中的小写字母.这样虽然可能造成缩写等单词识别错误,但是有助于提高整个文档识别系统的识别率.实验结果表明该系统在识别准确率和识别处理时间方面具有良好性能.
其他文献
工作流技术作为一项流程集成技术,已经在许多领域得到了广泛的应用,并且受到了人们越来越多的关注.目前,由于企业所处的环境复杂多变,企业的业务流程也变得更加动态和灵活,如
近年来,随着嵌入式应用的发展,涌现出许多适合资源有限的8、16或32位小系统的小型TCP/IP实现.该文首先讨论了小型TCP/IP实现采用的简化TCP/IP实现的方法和技术,并分析了这些
近年,中国电力行业改革不断,逐步引入竞争机制,发电企业开始与电网分离,成为独立企业参与市场竞争.在由计划经济运行模式向市场导向的转变背景下,电厂的管理重点逐步过渡到基
随着计算机和因特网的快速发展,网上信息的类型越来越丰富,可利用的资源也越来越丰富。因此迫切需要一种系统技术来管理数字信息资源,数字图书馆就是顺应这种需要而产生的。数字
目前中国许多大中型城市均在建设电子政务平台,电子政务建设已经成为信息化建设的热点和重点.由于电子政务的国家标准还在制定中,有许多理论和技术问题值得研究,特别是电子政
网站内容管理系统(Content Management System,简称CMS)是针对政府和企业网站建设的需求经过认真而深入分析后设计的、专门面向网站内容编辑与发布的应用系统.开发这套系统旨
以Internet为代表的网络技术正在对企业的发展产生深刻的影响,对企业实施MIS系统提出了更高的要求,作为其重要组成部分的合同管理系统也必须顺应这个发展趋势。合同管理是设
随着经济的高速增长和计算技术的不断革新,企业信息化有了显著的发展。在给组织和企业带来管理上的极大便捷的同时,也给信息安全带来了新的挑战。这其中来自企业内部的攻击威
网络的重要性在于人们可以通过它对异地的信息进行快速访问,由于各种原因导致网络故障会给我们的生活带来许多不便,高质量的网络管理系统的需求日益明显。好的网管系统能降低网
该文介绍了基于WEB的Client/Server和Browser/server信息服务系统的结构模式.分析认为,Browser/server结构是Web信息服务系统结构模式的发展趋势.数据库访问接口技术对于数据