论文部分内容阅读
文档是一种重要的信息传递媒介,在过去几十年中随着计算机技术的发展,越来越多的传统纸质文档被数字化。目前现存的电子文档中有大量的版式文档,被广泛地用于内容交换和出版印刷。自1990年代以来,Portable Document Format(PDF)已经成为了版式文档事实上的标准。版式文档以内容呈现为主要目标,在绘制和印刷上可以达到极高的保真度,其样貌不依赖于软件和设备环境。 近几年无线和移动技术的迅猛发展使得移动设备大行其道,同时也带来了文档在移动应用中日益增长的需求。然而在加工生成版式文档的过程中,经过编辑、排版和成像阶段,文档本身的逻辑结构和物理结构没有得到保留,以PDF为代表的版式数字文档并不适合移动阅读。同时版式文档直接存储的是用于绘制显示的信息,结构信息的缺失使版式文档在信息检索中也不能得到高效的利用。为了让更多的版式文档可以用于移动阅读和信息检索,版式文档中的结构信息需要得到恢复,目前这仍然是一个难题。版式文档的结构包括页面内布局结构和页面间关联结构,其中页面内结构是构建其他结构信息的基础。版式文档页面结构又分为物理结构和逻辑结构两方面,其中物理结构是页面内容按空间位置的划分方式(如字符、文本行、区域、分栏等);逻辑结构包括内容的逻辑角色和阅读顺序两方面。 本文以电子书版式文档为对象,研究了页面结构的物理划分和页面内容逻辑类型分类。为了评估页面结构布局分析方法的性能,本文构建了一个基准数据集,并提出了不同场景下的可定制的布局分析方法性能评估方法。本文的主要研究内容和具有创新性的成果主要体现在以下几个方面: (1)提出了一种基于上下文信息的页面内容逻辑分类方法 版式文档制作过程中需要以某些排版规则隐性地体现文档内容之间的关系,虽然经过最后成像的版式文档中不再包含结构信息,这些关系仍然是发掘内容结构的有利线索。因此,根据“上下文有助于判别页面内容语义角色”的假设,本文提出一种基于上下文信息的页面内容逻辑分类方法。首先,本文以经过初步物理划分的页面内容为顶点,其相互关系为边,将页面抽象为一个图结构。然后,本文对每个顶点提取不受文档布局风格限制的特征,并分别通过局部分类器和指数函数将这些特征派生为一元和二元势函数。最后,本文使用条件随机场模型对页面内容进行全局联合分类。本文比较了局部分类器、简单图结构联合分类器和混合图结构联合分类器,实验数据表明利用上下文信息的全局联合分类模型比仅使用内容自身特征的局部分类器模型在宏平均F1性能指标上提高了9.64%。 (2)构造了一个用于页面布局分析方法性能评估的基准数据集 电子书版式文档由于其本身文件格式的复杂性和封装性,不适合直接用于性能评估。由于当前缺少可以用于电子书版式文档页面布局分析的公开基准数据集,本文在研究中构造了一个新的数据集。该数据集基于XML schema,采用原始图元对象与结构数据对象分离的设计方式描述页面内容,从而使性能评估不依赖特定的版式文档解析工具。本文还实现了一个图形界面的标注工具用于构建基准数据集,并使用物理划分算法简化了文档标注中耗费时间的环节。通过标注多种来源和风格的文档,本文构建了一个包含244页完全标注页面的数据集,用于页面逻辑分析性能评估。 (3)提出了一套适用于版式文档的布局分析性能评估方法 与图像文档不同,版式文档使用图元作为页面内容的基本描述单位。本文在基准数据格式的基础上提出了一套用于版式文档布局分析性能评估的方法,该方法将结构对象分解为基本图元对象,使用对象ID确定基准数据与分析结果之间的对应关系。相比图像文档领域使用的多边形的区域表示法,基于基本图元对象ID和包围矩形的表示法更能简化性能评估过程。本文提出的综合评估方法同时兼顾了物理划分和逻辑分类两方面,通过对象包含的基本图元面积和对应关系类型来量化对应关系分别在物理和逻辑意义上的匹配程度。根据特定逻辑类型在不同应用场景下的的重要性,该评估方法还可以通过调整权重函数进行定制。