电子书版式文档的页面内容逻辑类型分析

来源 :北京大学 | 被引量 : 0次 | 上传用户:jiangxiuli2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档是一种重要的信息传递媒介,在过去几十年中随着计算机技术的发展,越来越多的传统纸质文档被数字化。目前现存的电子文档中有大量的版式文档,被广泛地用于内容交换和出版印刷。自1990年代以来,Portable Document Format(PDF)已经成为了版式文档事实上的标准。版式文档以内容呈现为主要目标,在绘制和印刷上可以达到极高的保真度,其样貌不依赖于软件和设备环境。  近几年无线和移动技术的迅猛发展使得移动设备大行其道,同时也带来了文档在移动应用中日益增长的需求。然而在加工生成版式文档的过程中,经过编辑、排版和成像阶段,文档本身的逻辑结构和物理结构没有得到保留,以PDF为代表的版式数字文档并不适合移动阅读。同时版式文档直接存储的是用于绘制显示的信息,结构信息的缺失使版式文档在信息检索中也不能得到高效的利用。为了让更多的版式文档可以用于移动阅读和信息检索,版式文档中的结构信息需要得到恢复,目前这仍然是一个难题。版式文档的结构包括页面内布局结构和页面间关联结构,其中页面内结构是构建其他结构信息的基础。版式文档页面结构又分为物理结构和逻辑结构两方面,其中物理结构是页面内容按空间位置的划分方式(如字符、文本行、区域、分栏等);逻辑结构包括内容的逻辑角色和阅读顺序两方面。  本文以电子书版式文档为对象,研究了页面结构的物理划分和页面内容逻辑类型分类。为了评估页面结构布局分析方法的性能,本文构建了一个基准数据集,并提出了不同场景下的可定制的布局分析方法性能评估方法。本文的主要研究内容和具有创新性的成果主要体现在以下几个方面:  (1)提出了一种基于上下文信息的页面内容逻辑分类方法  版式文档制作过程中需要以某些排版规则隐性地体现文档内容之间的关系,虽然经过最后成像的版式文档中不再包含结构信息,这些关系仍然是发掘内容结构的有利线索。因此,根据“上下文有助于判别页面内容语义角色”的假设,本文提出一种基于上下文信息的页面内容逻辑分类方法。首先,本文以经过初步物理划分的页面内容为顶点,其相互关系为边,将页面抽象为一个图结构。然后,本文对每个顶点提取不受文档布局风格限制的特征,并分别通过局部分类器和指数函数将这些特征派生为一元和二元势函数。最后,本文使用条件随机场模型对页面内容进行全局联合分类。本文比较了局部分类器、简单图结构联合分类器和混合图结构联合分类器,实验数据表明利用上下文信息的全局联合分类模型比仅使用内容自身特征的局部分类器模型在宏平均F1性能指标上提高了9.64%。  (2)构造了一个用于页面布局分析方法性能评估的基准数据集  电子书版式文档由于其本身文件格式的复杂性和封装性,不适合直接用于性能评估。由于当前缺少可以用于电子书版式文档页面布局分析的公开基准数据集,本文在研究中构造了一个新的数据集。该数据集基于XML schema,采用原始图元对象与结构数据对象分离的设计方式描述页面内容,从而使性能评估不依赖特定的版式文档解析工具。本文还实现了一个图形界面的标注工具用于构建基准数据集,并使用物理划分算法简化了文档标注中耗费时间的环节。通过标注多种来源和风格的文档,本文构建了一个包含244页完全标注页面的数据集,用于页面逻辑分析性能评估。  (3)提出了一套适用于版式文档的布局分析性能评估方法  与图像文档不同,版式文档使用图元作为页面内容的基本描述单位。本文在基准数据格式的基础上提出了一套用于版式文档布局分析性能评估的方法,该方法将结构对象分解为基本图元对象,使用对象ID确定基准数据与分析结果之间的对应关系。相比图像文档领域使用的多边形的区域表示法,基于基本图元对象ID和包围矩形的表示法更能简化性能评估过程。本文提出的综合评估方法同时兼顾了物理划分和逻辑分类两方面,通过对象包含的基本图元面积和对应关系类型来量化对应关系分别在物理和逻辑意义上的匹配程度。根据特定逻辑类型在不同应用场景下的的重要性,该评估方法还可以通过调整权重函数进行定制。
其他文献
广东工业大学协同软件实验室和广东省人事厅合作开发的工资智能决策支持系统SIDSS,是一个智能决策支持系统在实际的软件开发中的具体应用。其目的是将各单位的人事部门从繁琐
该文以大规模真实语料为基础,建立了几个统计模型,以六万汉语句子(其中三万正确的,三万错误的)为测试集进行了实验.实验结果表明,在汉语的自动校对中,字的三元模型的效果要好
该文讨论了基于演化算法的参数辨识问题,重点讨论了基于遗传程序设计的系统建模.主要内容包括:●将参数辨识问题转换为一个优化问题,采用演化算法求解模型的最优参数值,并给
分割问题是计算机视觉研究领域中的重要问题,是物体识别,三维重建等高层研究的基础。近年来,针对单幅图像的分割研究已经取得了长足的进展,研究者们将更多的目光放在了视频与多视
随着网络的发展,XML的应用将变得越来越广泛.XML编程模型的设计,以及相关的XML解析器实现,作为XML应用开发的基础,具有非常重要的意义,需要全面而且深入的研究.该文中作者基
该论文在国家十五预研项目"可穿戴计算机系统技术"的支持下,进行了自组网中组播路由协议的研究并加以具体实现.该文首先将一种简单有效的组播路由协议——自组网按需路由距离
空间环境直接关系到人类的生产活动与生活,特别是对日益发展的航天活动、通讯与导航系统,以及地面技术系统等都有着重要的影响。由于人类遭遇到空间环境的各种危害,其引起了越来
本文提出了一些构造IBE(基于身份的加密)方案的新方法,解决了一些IBE领域的公开问题,例如构造在标准计算模型下(而不是在RANDOM ORACLE模型下)选择密文安全的IBE系统。另外,我们
探空火箭是临近空间短时飞行探测和试验的重要手段,由于其飞行时间短,实时的了解其飞行状态就显得尤为重要。为了帮助科研人员理解探空火箭试验任务中获取的抽象数据,直观地了解
随着空间科学战略性先导科技专项的启动,我国预计发射六颗空间科学卫星,其中,硬X射线调制望远镜(HXMT)作为我国第一颗空间天文卫星,将填补我国高能天文观测在硬X射线波段的重大缺