论文部分内容阅读
数学公式是教育、科技类文档的重要组成部分,也是科学技术交流的重要语言。目前互联网上积累了海量的包含数学公式的文档资源,如何识别及检索文档中的公式成为很多领域中的关键问题。在移动阅读及数字出版等领域,为了在不同设备和环境中高质量地显示文档,需要进行文档的结构化加工,由于公式具有特殊结构,常常需要特殊识别;在教育领域,由于缺乏对公式的识别,文档中的公式很难进行拷贝和重用;在科技文献检索、数字图书馆等领域,需要公式识别及检索技术,帮助用户高效地检索和获取文档中的数学资源。 公式识别即从文档中自动地定位公式区域、识别公式符号以及分析公式区域内符号间的结构关系。公式检索即以公式为查询条件和检索对象,查找相关公式和文档。由于数学公式在组成上包含各种生僻符号,在布局结构上包含二维、嵌套等关系,在表达方式上灵活多变,公式识别和检索成为文档识别与检索领域的一个公认难题。公式识别已得到了多年研究,但是目前的方法主要处理图像文档,所利用的是文档的底层像素信息,尚难以处理现实中多来源、不同排版风格的文档。尤其是,由排版软件直接生成的PDF(Portable Document Format)文档已成为当前电子文档尤其是科技文档的主流格式,而现有方法尚未能够利用PDF文档中附带的丰富信息来提高公式识别的效果。公式检索在近十年得到越来越多的关注,然而现有的方法主要是借鉴文本检索技术,以公式文本匹配度为基础进行公式检索,难以支持公式检索特有的结构匹配、模糊匹配等查询需求。 因此,本文以由排版软件直接生成的PDF文档为研究对象,围绕其公式识别与公式检索问题,先后研究了数学公式的符号提取、区域定位、布局结构分析、索引和排序等。其中,具有创新性的研究成果主要体现在以下几个方面: (1) PDF文档的公式识别方法 a)针对公式定位的前提步骤——文本分行,提出了一种基于行间关系的文本行粗分割与合并方法,避免了传统文本分行算法处理二维公式和多行公式时,公式被过度分割从而严重影响公式定位效果的问题。b)针对PDF文档特点,提出了复合数学符号的提取方法,克服以往研究中数学符号难以提取或提取不全的问题;挖掘利用了独立公式和内嵌公式在布局、内容和上下文方面的特征,克服以往研究只能处理特定公式类型的问题,同时针对机器学习技术应用于公式定位时的数据不平衡问题,提出了重采样改进方案,显著改善了公式定位的效果。c)在公式结构分析方面,利用PDF文档特有的字体、基线等精准丰富的字符属性,对传统的公式基线结构分析方法进行改进,提高了公式结构分析算法的准确性。 (2)公式定位的细粒度评估方法 由于缺乏公开的基准数据集,长期以来不同公式识别方法之间难以进行相互比较。此外,现有的准确率、召回率等评估指标较为笼统,很难具体反映公式识别的错误类型,很难比较不同识别方法在不同应用场景中的效果,也很难为后期改进提供参考依据。本文从现实的多源文档数据中构建了初具规模的数据集,标注了公式定位的基准结果,为公式定位方法的公开评估和比较提供数据基础;同时提出了能够对不同应用场景下公式定位效果进行量化和区分不同错误类型的细粒度评估准则。本文实现的数据集及评估工具均已公开,供外界研究人员使用。 (3)基于语义增强和层次泛化的公式检索方法 目前互联网上的公式数据主要是布局表示格式(Presentation型),其中未显式包含公式的结构信息与语义信息,不能对其直接进行结构匹配、模糊匹配等语义查询,严重影响了人们对公式数据的检索与利用。针对此类公式,本文提出了基于语义增强和层次泛化的索引和排序方法,从而支持公式布局格式的子结构匹配和模糊匹配,更合理地进行公式相似度的计算,更好地满足用户查找结构相似公式的检索需求。并且实现了一个公式检索系统,可以输入LATEX形式的查询公式,对Wikipedia的公式数据进行搜索。 在以上数学公式识别与检索关键技术的研究之上,本文分别实现了PDF文档的公式识别系统、公式定位评估系统和公式检索系统。实验结果表明,相比以往面向图像文档的公式识别方法和基于文本相关度的公式搜索方法,本文所提出的方法有效地利用了PDF文档特点和公式结构信息,获得了更为理想的公式识别与检索效果。本文提出的部分公式识别算法已应用于实际的文档转换和电子书制作过程中,提高了文档加工的自动化水平。