PDF文档的数学公式识别与检索研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：q43372958

【摘要】

：

数学公式是教育、科技类文档的重要组成部分，也是科学技术交流的重要语言。目前互联网上积累了海量的包含数学公式的文档资源，如何识别及检索文档中的公式成为很多领域中的关键

【作者】

：

林晓燕

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2014年期

【关键词】

：

数学公式识别结果评估排版风格电子文档文本检索结构匹配区域定位

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数学公式是教育、科技类文档的重要组成部分，也是科学技术交流的重要语言。目前互联网上积累了海量的包含数学公式的文档资源，如何识别及检索文档中的公式成为很多领域中的关键问题。在移动阅读及数字出版等领域，为了在不同设备和环境中高质量地显示文档，需要进行文档的结构化加工，由于公式具有特殊结构，常常需要特殊识别;在教育领域，由于缺乏对公式的识别，文档中的公式很难进行拷贝和重用;在科技文献检索、数字图书馆等领域，需要公式识别及检索技术，帮助用户高效地检索和获取文档中的数学资源。　　公式识别即从文档中自动地定位公式区域、识别公式符号以及分析公式区域内符号间的结构关系。公式检索即以公式为查询条件和检索对象，查找相关公式和文档。由于数学公式在组成上包含各种生僻符号，在布局结构上包含二维、嵌套等关系，在表达方式上灵活多变，公式识别和检索成为文档识别与检索领域的一个公认难题。公式识别已得到了多年研究，但是目前的方法主要处理图像文档，所利用的是文档的底层像素信息，尚难以处理现实中多来源、不同排版风格的文档。尤其是，由排版软件直接生成的PDF(Portable Document Format)文档已成为当前电子文档尤其是科技文档的主流格式，而现有方法尚未能够利用PDF文档中附带的丰富信息来提高公式识别的效果。公式检索在近十年得到越来越多的关注，然而现有的方法主要是借鉴文本检索技术，以公式文本匹配度为基础进行公式检索，难以支持公式检索特有的结构匹配、模糊匹配等查询需求。　　因此，本文以由排版软件直接生成的PDF文档为研究对象，围绕其公式识别与公式检索问题，先后研究了数学公式的符号提取、区域定位、布局结构分析、索引和排序等。其中，具有创新性的研究成果主要体现在以下几个方面:　　(1) PDF文档的公式识别方法　　a)针对公式定位的前提步骤——文本分行，提出了一种基于行间关系的文本行粗分割与合并方法，避免了传统文本分行算法处理二维公式和多行公式时，公式被过度分割从而严重影响公式定位效果的问题。b）针对PDF文档特点，提出了复合数学符号的提取方法，克服以往研究中数学符号难以提取或提取不全的问题;挖掘利用了独立公式和内嵌公式在布局、内容和上下文方面的特征，克服以往研究只能处理特定公式类型的问题，同时针对机器学习技术应用于公式定位时的数据不平衡问题，提出了重采样改进方案，显著改善了公式定位的效果。c）在公式结构分析方面，利用PDF文档特有的字体、基线等精准丰富的字符属性，对传统的公式基线结构分析方法进行改进，提高了公式结构分析算法的准确性。　　(2)公式定位的细粒度评估方法　　由于缺乏公开的基准数据集，长期以来不同公式识别方法之间难以进行相互比较。此外，现有的准确率、召回率等评估指标较为笼统，很难具体反映公式识别的错误类型，很难比较不同识别方法在不同应用场景中的效果，也很难为后期改进提供参考依据。本文从现实的多源文档数据中构建了初具规模的数据集，标注了公式定位的基准结果，为公式定位方法的公开评估和比较提供数据基础;同时提出了能够对不同应用场景下公式定位效果进行量化和区分不同错误类型的细粒度评估准则。本文实现的数据集及评估工具均已公开，供外界研究人员使用。　　(3)基于语义增强和层次泛化的公式检索方法　　目前互联网上的公式数据主要是布局表示格式（Presentation型），其中未显式包含公式的结构信息与语义信息，不能对其直接进行结构匹配、模糊匹配等语义查询，严重影响了人们对公式数据的检索与利用。针对此类公式，本文提出了基于语义增强和层次泛化的索引和排序方法，从而支持公式布局格式的子结构匹配和模糊匹配，更合理地进行公式相似度的计算，更好地满足用户查找结构相似公式的检索需求。并且实现了一个公式检索系统，可以输入LATEX形式的查询公式，对Wikipedia的公式数据进行搜索。　　在以上数学公式识别与检索关键技术的研究之上，本文分别实现了PDF文档的公式识别系统、公式定位评估系统和公式检索系统。实验结果表明，相比以往面向图像文档的公式识别方法和基于文本相关度的公式搜索方法，本文所提出的方法有效地利用了PDF文档特点和公式结构信息，获得了更为理想的公式识别与检索效果。本文提出的部分公式识别算法已应用于实际的文档转换和电子书制作过程中，提高了文档加工的自动化水平。

其他文献

基于工作流技术的B/S模式安全环保系统的设计与实现

随着互联网技术的不断发展，越来越多的企业办公实现自动化，办公自动化是办公信息处理的自动化。一些传统的办公方式逐渐在向信息化方向发展。实现办公的自动化，办公的信息化能够

学位

企业管理办公自动化程序设计工作流模型

基于非对等差错保护的自适应视频传输关键技术研究

随着信息与网络技术的飞速发展，视频传输受到了工业界和学术界的关注，视频服务的需求和应用也越来越广泛。高效的视频传输对于人们在视频通信、视频应用中有着极其重要的影响。

学位

视频传输自适应非对等差错保护视频层-信道调度多天线系统可伸缩视频

Jini、移动代理技术及其网络应用

如何针对大型网络环境，改进服务方式，使网络更加方便灵活是当今网络的一个研究热点。在目前的各种技术中，移动代理能够在异构网络环境中自主地从一台主机移动到另外一台主机

学位

Jini移动代理JMAgent查找服务租约机制

药品库存决策支持系统

该文介绍了药品库存决策支持系统的设计和实现过程.该系统是将库存理论应用于实际的一个计算机软件系统.它解决的主要问题是药品的采购与存储的决策问题,即如何管理库存才能

学位

药品库存决策支持系统随机性模型设计计算机模拟

基于小波和数学形态学的图像边缘检测算法的研究

该文对图像分割技术进行了综述和探讨.在此基础上,以图像分割技术中的边缘检测技术为突破口,结合了近年来具有"数学显微镜"美誉的小波分析工具和发展迅速的数学形态学处理方

学位

图像分割小波分析多分辨率分析边缘检测多尺度分析阈值选择数学形态学

汉语离合词和长距离搭配的研究

汉语中词的离合是指词的构成元素(两个或多个汉字)之间的结合不很紧密,可以在其间插入某些其它成分而被分离,但被分离的词所表达的基本语义不变的语法现象.该文从大规模语料

学位

汉语离合词长距离搭配汉语分词机器翻译语料库

入侵检测系统分析及实现

该文详细分析了NISDetector系统的体系结构--分布式集中控制入侵检测系统,对探测器,主机代理,安全控制中心三部分的工作原理进行了深入阐述.其中对基于审计日志监测分析的主

学位

入侵检测主机代理审计日志安全控制中心

吉林会展中心管理系统

该论文是一篇计算机管理软件项目设计论文.主要阐述了项目的立项的背景、系统调查、总体设计和表设计、主体窗口的详细设计,以及项目设计中的特色部分.

学位

计算机管理软件开发会展中心管理系统C/S结构

Handle-DNS名字服务系统的设计与实现

该论文主要讨论了一种新的名字服务系统Handle-DNS的理论设计与具体实现.该文作者参与了该系统理论模型的设计以及原型系统的实施,集成现有DNS和Handle System系统,完成Handl

学位

DNSHandle名字服务网络资源寻址定位技术简易数据接口SDI

面向超市的市场调查统计分析系统

论文详细叙述了面向超市的市场调查统计分析系统的设计与功能实现的全过程,主要包括以下内容:对项目要求与课题内容进行了详细的分析,将问题模型化,对其功能模块进行了划分,

学位

超市市场调查数据统计CRAMER'SV值相关分析

PDF文档的数学公式识别与检索研究

其他学术论文