一种版式文件中结构信息表示方法的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:ykl122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子文档的数目爆炸性增长和互联网技术的发展,电子文档的应用逐渐丰富。这要求一种更加智能化的方式来帮助人们处理大量的电子文档,例如信息提取、检索、格式转换、版面重排等。这些需求使得文档逻辑结构信息的作用逐渐凸现,如何表示文档中的逻辑结构信息也成为一个学者研究的问题,现有的表示的方法存在表示方式不灵活,不便于添加和修改,表示不准确等不足。 针对目前版式文件中结构信息表示方法的不足和存在问题,论文所做的主要工作是: 1.设计了一种新的表示方法,称为CSLR(Content Sequence based Logicalstructure Representation)。这种方法的创新之处在于,通过对版式文件内容参考序列的划分,达到划分逻辑单元的目的,实现逻辑结构信息和版式文件的分离。 2.实现了一个CSLR方法的原型系统,包括CSLR数据包的生成、解析、与其他系统集成以及将版式文件转换为HTML。 论文通过实践证明了该方法可以有效、灵活地表示版式文件中文档逻辑结构信息,能够帮助文档阅读器对版式文件进行重排。采用该方法不需要对原有的版式文件进行修改,并可适用于用户自定义的文档模型。
其他文献
传统嵌入式软件的开发方式是在桌面开发环境下开发初始版本软件,然后当嵌入式系统或者芯片原型可用时,再将软件使用交叉编译器和相关工具移植到目标环境,如ARM,MIPS,PowerPC等。然
随着Internet网络带宽的增加和网络速度的提升,GIS与Internet相结合的基于B/S模式的网络地理信息系统(WEBGIS)得到了长足发展,而且由于其具有的显著优势,正在逐步取代传统C/S
近年来,蓬勃发展的大数据技术和机器学习技术为大规模数据分析应用提供了必要的基础支撑和技术手段。然而,数据规模的持续增长和日趋复杂的数据挖掘算法,对系统的性能和处理速度
随着我国经济持续不断地快速发展,国家在基础设施建设上的投资逐年加大,建设工程交易市场也随之蓬勃发展。作为建设工程交易中心,如何保证建设工程交易的“公平、公正、公开”,确
万维网产生以后,将遍布全球各地的计算机联系到一起,这些计算机中的数据资源组成的规模庞大的数据库,拥有了一台能够联网的计算机,就等于拥有了整个万维网上的所有资源,人们
无线传感器网络(Wireless Sensor Networks,WSNs)具有开放的环境、动态变化的拓扑结构和资源受限的节点,这些独特的网络特征使得其安全问题成为这一领域的研究热点和难点。本文
随着SoC设计规模和复杂性的不断增加,总线结构和互联已成为SoC设计的核心.SoC总线系统连接各个IP形成SoC的结构框架,是SoC能否正常、高效工作的关键因素之一.在众多总线结构
随着社会信息化程度的不断提高,越来越多的信息系统被应用到社会生活和工作的各个方面。这些信息系统需要更多的通信和交互,各系统需要共享相关数据,共同合作来完成特定任务。而
合成孔径雷达干涉测量(InSAR)是于20世纪60年代末发展起来的,它是以合成孔径雷达复数据提取的相位信息为信息源获取地表的三维信息和高程变化信息的一项技术。它将干涉测量技
全球导航卫星系统(GNSS)可以实现全天候、全球性与高精度的连续导航与定位,近些年发展非常迅速。随着GPS系统现代化计划的实施以及其他卫星导航与定位系统的建设与不断完善,