论文部分内容阅读
随着电子文档的数目爆炸性增长和互联网技术的发展,电子文档的应用逐渐丰富。这要求一种更加智能化的方式来帮助人们处理大量的电子文档,例如信息提取、检索、格式转换、版面重排等。这些需求使得文档逻辑结构信息的作用逐渐凸现,如何表示文档中的逻辑结构信息也成为一个学者研究的问题,现有的表示的方法存在表示方式不灵活,不便于添加和修改,表示不准确等不足。
针对目前版式文件中结构信息表示方法的不足和存在问题,论文所做的主要工作是:
1.设计了一种新的表示方法,称为CSLR(Content Sequence based Logicalstructure Representation)。这种方法的创新之处在于,通过对版式文件内容参考序列的划分,达到划分逻辑单元的目的,实现逻辑结构信息和版式文件的分离。
2.实现了一个CSLR方法的原型系统,包括CSLR数据包的生成、解析、与其他系统集成以及将版式文件转换为HTML。
论文通过实践证明了该方法可以有效、灵活地表示版式文件中文档逻辑结构信息,能够帮助文档阅读器对版式文件进行重排。采用该方法不需要对原有的版式文件进行修改,并可适用于用户自定义的文档模型。