印刷体数学公式识别系统的设计与实现——分割、识别与重组

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：y2228158

【摘要】

：

随着计算机的普及,人们越来越多的使用计算机处理工作和存储信息.目前广泛应用的OCR系统对手写、印刷体文本都有很高的识别率,已经广泛应用于办公自动化、快速录入等领域,克

【作者】

：

侯利昌

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2004年期

【关键词】

：

模式识别粘连字符分割矩特征主分量分析自组织映射 BP神经网络公式重构

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机的普及,人们越来越多的使用计算机处理工作和存储信息.目前广泛应用的OCR系统对手写、印刷体文本都有很高的识别率,已经广泛应用于办公自动化、快速录入等领域,克服了人工输入费时费力的缺点.但是,对于一篇科技文献,其中有大量的数学公式,它们是由特殊的符号、希腊字母、英文字符和数字组成的复杂和结构体.当前的OCR系统只能识别单个字符,还不能分析公式结构,这样识别出来的公式只是一组毫无关系的字符串,失去了它所表达的数学含义.为此,我们提出了一种新的关于表达式识别的设计思想,并给出了完整的算法,将印刷体的数学公式(图像格式)转换成可编辑的电子格式(如LATEX,Word公式编辑器).按照表达式识别系统的流程,该文相应的分为以下四部分:粘连字符的分割.由于纸质文档的印刷质量、纸张的光洁度、扫描仪的分辨率、二值化等因素的影响,扫描得到的图像中的字符可能是粘连的.这为字符识别带来了困难.该文提出用组织映射作字符分割的方法,对经典的自组织学习规则做了一些改进,使其能以较少的神经元结点、较快的速度逼近粘连字符的白像素点的分布.文中对最短路径分割方法和自组织映射法分割做了对比,后者能分割一些前者不能处理的粘连字符.特征提取与选择.一个字符图像只是模式空间中的特征,还不能用来分类,必须在它上面提取抗旋转、缩放、平移的几何不变性特征.文中介绍三种常用的矩方法:规则矩、Zernike矩和样条小波矩.通过计算这三种矩可分性度量,发现Zernike矩更适于做字符的特征.文中还介绍了基于神经网络的主分量分析方法,在38维矩特征中选取18维的主特征,保留信息量的同时,大大降低了特征矢量的维数,消除了样本间的相关性,突出了差异性.字符识别.分类器是整个识别系统的核心.神经网络已经被广泛用于模式识别,克服了当前常用的模式识别方法的缺点,有效提高了识别率.文中用自组织特征映射做字符的粗分类,将特征相近的字答分在一组.然后BP神经网络对各组字符做细分类,识别出同一组的不同字符,有效地提高了分类精度.公式重构.如何从一组字符中判断它们复杂的结构至今也没有很好的解决.文中将介绍一种新的公式重构的方法.主要包括上下标定位的方法、符合LL(1)文法的数学表达式构成规则和语法分析器.无序的字符串通过语法分析器生成语法树,最终被转换成可编辑的LATEX公式格式.文章最后,以一定数量的英文数学资料作实验,结果表明该系统具有一定的实际应用价值,但是还有待进一步改进.

其他文献

探析建筑施工企业预算管理

期刊

带有移民控制的离散人口发展系统的能控性与模型验证

本文研究了古老而且重要的人口发展问题,其定量研究也有200年的历史了。在这200多年的时间里,出现了许多不同的模型,现在最常用的就是人口状态发展模型了。人口状态发展模型

学位

人口发展模型离散双线性系统移民控制

人类第四法则

艾萨克·阿西莫夫创造出的“机器人三法则”在科幻界内几乎人人皆知。英国数学家兼科幻作家伊恩·斯图尔特由阿西莫夫的作品想象到机器人的生存状态,进行翻转后,写出了以下这

期刊

阿西莫夫老样子显示屏数学家生存状态视网膜班次艾萨克杰伊奴隶

分数次极大算子的加权模不等式

近三十年来，极大算子的加权模不等式一直是调和分析研究的重要问题nMuckenhoupt，Sawyer与Neugebauer等人先后给出Hardy-Littlewood极大算子单权与双权不等式的充要条件和充分条

学位

分数次极大算子Young函数Orlicz空间Lorentz空间

ZigBee和GPRS技术在无线水保监测系统中的应用分析

期刊

刍议如何提高高中音乐鉴赏课有效性的教学

我国在开展素质教育过程中,不仅向学生传授丰富的知识,而且注重对学生综合能力的培养,使得学生获得全面发展.在高中阶段,音乐作为一门科目,在实际教学期间,为了满足教学的基

期刊

提高高中音乐鉴赏课有效性教学

高层宾馆消防安全评价指标体系的建立

期刊

在多层无界区域中Helmholtz方程的数值解法及其应用

本文主要提出了一种在无界区域上求解Helmholtz方程的有效数值解法。首先，研究无界区域上Helmholtz方程的区域有界化问题；以往在无界区域上求解Helmholtz方程的方法是设立

学位

无界区域Helmholtz方程数值解法光波传播声波传播

关于富足半群和模糊正则半群的研究

“半群代数理论”在计算机科学、信息科学的推动下，经过六十余年的系统研究，已成为“代数学”中一个独具特色的学科分支．它与“群论”的关系类似于“环论”与“域论”的关系．这一

学位

正则半群纯整半群u-IC拟适当半群α-IC拟适当半群模糊等价关系模糊同余关系模糊同余对同构

n连环图的生成单复形的性质和算术秩的一些研究

这篇论文，我们证明了n连环图 Gt1,t2…tn的生成单复形的Stanley-Reisner理想满足斯坦利猜想.且当 t1= t2=…= tn= t时，我们给出了△s( G t1,t2,...,tn)的f向量的一个计算公式，并

学位

Stanley-Reisner理想斯坦利猜想f向量希尔伯特级数算术秩

印刷体数学公式识别系统的设计与实现——分割、识别与重组

其他学术论文