论文部分内容阅读
科技工程文献中存在大量数学公式,而现有的0.R产品难以有效的识别其中的数学公式,其识别结果往往面目全非。本文针对数学公式识别中存在的问题,从数学公式定位、公式图像二值化、公式符号切分/识别和公式结构分析等多个方面进行了深入的研究,建立了一个初步实用化的数学公式识别系统。本文的主要研究工作包括:
(1)提出了一种数学公式定位的方法。该方法首先通过中文字符识别和公式符号识别区分中文字符和非中文字符(如果是英文文档,则无需进行中文字符区分),然后根据相邻符号间的空间位置信息和符号自身的语义信息从非中文字符中提取内嵌公式符号,最后根据公式的版式信息定位独立公式。在148幅文档图像共3690个公式中取得了91.19%的公式定位正确率。
(2)针对数学公式图像中符号笔划断裂和粘连的情况,提出了一种公式图像二值化集成方法。为了减少符号笔划的断裂,使用了基于连通体的二值化方法。为了减少相邻符号的粘连,使用了基于直方图的全局二值化方法。最后基于符号识别结果集成这两种二值化方法。
(3)提出了一种基于三阶段动态规划方法的数学公式符号切分方法。在该方法中首先使用动态规划方法从竖直方向切分公式子图,然后再从水平方向切分公式符号,最后使用动态规划方法合并可能断裂的公式符号。在1322幅公式图像组成的测试集上取得了96.40%的符号切分正确率。
(4)提出一种带有拒识模型的符号识别方法。在测试数据集上取得了98.58%的符号识别正确率。
(5)提出了一种层次结构分析方法。该方法降低了公式分析的复杂度,提高了公式的分析正确率,在1322幅公式图像组成的测试集上取得了87.59%的结构分析正确率。
(6)建立了一个初步实用化的数学公式识别系统。在148幅文档图像共3690个公式组成的测试集中取得了81.24%的公式识别正确率。本文建立的公式识别系统已经嵌入到汉王0CR中,并已正式销售。