离线阿拉伯字符识别系统

来源 :北京航空航天大学 | 被引量 : 0次 | 上传用户:xieyuchun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式识别是研究如何在数据中对模式进行分类.它可以定义为经由不相关的细节背景提取出数据特征对输入数据进行分类的过程.本篇论文中提出了一个新的字符切割算法.算法依靠垂直投影直方图和特定的规则.这些规则依靠每一个阿拉伯字符的结构特征.切割算法得到的精确度达到了98.60%.本文的研究主要集中在印刷体阿拉伯字符,因为相同的字体不同的大小两个模式之间的变形是不重要的,所以训练模式的数量不用很大.字符分割算法的结果是所有的边都对准:上,下,左和右.这意味第一行是从分割图像的顶端直到最后一个黑像素,在其他的方向也一样.由于这些因素我们每个字符只用2种字体每种字体选用10个样本进行区分.这些样本中的每一个都代表一种字体的大小,包括12、16、20、22和24号字.实验中采用后向传播学习算法的多层感知器.输入层包含225个神经单元,这个数字是由所给模式的宽度和高度计算出来的.实验中,我们把给定的模式由实际的大小归一化为15*15像素.每一个像素都被认为是输入层的输入神经元.实验表明这个技术达到了很高的识别率98%.大部分的识别错误都是由分割错误导致的.为了减少(2.3节详解)BP算法所用来识别100个类别的学习时间,本文总共用16个BP神经元(BPNN).这16个BPNN被分为4组.根据阿拉伯字符的形状每一组包含4个BPNN.第一个被用来分离形状,第二个用来为开始形状,第三个是为中间形状,最后一个是为木尾形状.获得结果之后发现MLP的识别率要比HMM精确.这是因为MLP被用于识别的阿拉伯字符数量只有100个类别,这个技术依靠字符分割算法.同时HMM技术依赖于文本中词的数量.无论以何种方式增加词典中词的数量,HMM技术仍然更适合用作特殊的目的,例如银行数据库或者ID识别.未来的工作方向将侧重于增强的分割算法.
其他文献
近年来,口语对话系统的应用越来越广泛,其中语音识别算法直接影响到整个系统的性能,但在某种程度上现有语音识别算法并不能满足需要。为了提高口语对话系统中语音识别的性能,本文
本文基于云南省教育厅科学基金《基于集群的网络计算模型与并行编程环境研究》研究项目,选择了“构建全面的资源管理来改善集群负载平衡”的技术路线,综合考虑了集群负载平衡中
随着"后PC时代"的到来,信息产业将以嵌入式产品为中心高速发展,并将在技术、商业、社会等层面取得巨大的成功.无疑,提供高性能的嵌入式操作系统的公司将发掘第一桶金.面对这
模型驱动构架(MDA)是现在软件工程研究领域中的一个热点,代表了今后软件开发的一个方向.它使用高层次的模型来对软件进行描述,使得程序员能够更加明确的关注于问题与领域本身
随着电子时代的来临,人类的各种行为不可避免的将与信息科学技术相结合。在此潮流之下,传统的保密与认证方式如:识别码,已难以应付日益庞杂的电子交易与信息保密措施等的需求。基
  本文研究了基于动态图像序列的人脸检测与跟踪问题。动态图像序列的人脸检测与跟踪作为人脸信息处理的一个关键技术,在学术领域、应用领域都有着极其重要的意义,近年来成为
相关分析方法被广泛地应用于通信、雷达、声纳、生物医学、模式识别、流体力学、信号处理以及颗粒测量等领域。相关分析是研究变量之间相关关系密切程度的理论和方法,包括自
随着信息技术的高速发展,计算机及网络技术的应用已经广泛渗透到了社会的各个方面,几乎每一个企事业单位都拥有计算机、局域网及相关设备。 一般地说,组织内部的IT资源可以分
  分布式测控系统是集计算机技术、微电子技术、网络技术、通信技术于一体的综合系统,在现实生活中具有广泛的应用需求。本文分析了无线转发系统的特点,借鉴现有的DCS技术,提
在Gartner《2017十大技术趋势》报告中指出万物互联(IoE:Internet of Everything)是今后科技的主旋律。万物互联(IoE)将人、数据和物体结合到一起使得网络连接变得更加相关,更