印刷体数学公式识别应用研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:solomon_bj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技工程文献中存在大量数学公式,而现有的0.R产品难以有效的识别其中的数学公式,其识别结果往往面目全非。本文针对数学公式识别中存在的问题,从数学公式定位、公式图像二值化、公式符号切分/识别和公式结构分析等多个方面进行了深入的研究,建立了一个初步实用化的数学公式识别系统。本文的主要研究工作包括:   (1)提出了一种数学公式定位的方法。该方法首先通过中文字符识别和公式符号识别区分中文字符和非中文字符(如果是英文文档,则无需进行中文字符区分),然后根据相邻符号间的空间位置信息和符号自身的语义信息从非中文字符中提取内嵌公式符号,最后根据公式的版式信息定位独立公式。在148幅文档图像共3690个公式中取得了91.19%的公式定位正确率。   (2)针对数学公式图像中符号笔划断裂和粘连的情况,提出了一种公式图像二值化集成方法。为了减少符号笔划的断裂,使用了基于连通体的二值化方法。为了减少相邻符号的粘连,使用了基于直方图的全局二值化方法。最后基于符号识别结果集成这两种二值化方法。   (3)提出了一种基于三阶段动态规划方法的数学公式符号切分方法。在该方法中首先使用动态规划方法从竖直方向切分公式子图,然后再从水平方向切分公式符号,最后使用动态规划方法合并可能断裂的公式符号。在1322幅公式图像组成的测试集上取得了96.40%的符号切分正确率。   (4)提出一种带有拒识模型的符号识别方法。在测试数据集上取得了98.58%的符号识别正确率。   (5)提出了一种层次结构分析方法。该方法降低了公式分析的复杂度,提高了公式的分析正确率,在1322幅公式图像组成的测试集上取得了87.59%的结构分析正确率。   (6)建立了一个初步实用化的数学公式识别系统。在148幅文档图像共3690个公式组成的测试集中取得了81.24%的公式识别正确率。本文建立的公式识别系统已经嵌入到汉王0CR中,并已正式销售。
其他文献
随着无线通信技术,无线定位技术以及计算机技术的发展,WIFI通信技术实现低能耗、低成本、安全可靠的井下无线通信。利用无线定位技术在地下金属矿中建立监控系统,对井下人员设备
实验作为自动化学科的教学与科研的重要手段,对控制理论的验证和应用具有重要的意义。而在实验系统中,实验软件又是研究人员与机器装置进行人机交互的重要前端,对实验的操作
随着全球信息网络的形成和经济一体化进程的加速,现代企业面临诸多的机遇和挑战。企业间的竞争逐渐演变成供应链之间的竞争,供应链管理成为企业竞相追逐的焦点。供应链协调优化
随着我国经济的飞速发展,人类对水的需求量逐日剧增,输水管道运输的安全运行成为管道安全监测的一项极为重要的任务。由于一些自然因素和人为因素不可避免地造成管道泄漏,这
实际环境中,语音信号在到达听觉系统时往往伴随着其它噪声。一个能够有效的从干扰源中分离出目标语音的信号分离系统对于自动语音识别、说话人识别、音频检索以及数字内容管理
存储器的可靠性测试是SoC设计中十分重要的问题。本文结合IEEE Std1500以及内建自测试的相关理论,给出并验证了一种进行 SoC存储器的测试方法。该方法可以实现SoC存储器测试
飞速发展的现场总线把信息网络的触角延伸到了底层的现场设备,改变了控制系统的结构,使其向着网络化、智能化、分散化的方向发展,为实现高级控制提供了前提。生产过程测量控制仪
生产调度是制造执行系统(Manufacturing Execution System,MES)的核心和关键技术,合理优化的生产调度方案可以为企业带来显著的经济效益和社会效益。生产调度问题通常是多约束
电渣炉重熔炼钢法在经过多年的实践和发展之后,已经取得了长足的进步,生产工艺也演变的多种多样。由于钢锭在经过重熔后,钢的成分大大改善,质量大大提高,所以电渣重熔目前广
随着世界能源的紧缺和高档办公建筑的不断涌现,如何合理、高效地利用天然能源已经越来越受到社会各界人士的关注。本文从当前国内外遮阳技术研究现状入手,阐明了开发基于LonWor