论文部分内容阅读
XML已经成为互联网上数据发布和数据交换的事实标准.然而由于其强大的数据表达能力,XML完全可能在互联网和数据库之间扮演更加重要的角色.它的出现将会"把Web变成数据库".将Web上的半结构数据迁移到XML上是对WWW上海量数据进行有效管理的一项十分有意义的工作.由于XML是典型的半结构化数据,关系数据库管理系统由于关系模型本身的缺陷,并不适合管理XML数据.因此,基于XML的半结构数据管理问题的研究已成为国际数据库界的一个重要研究方向之一.该文主要是针对XML半结构数据管理中的数据模型和查询等方面技术作了大量的研究工作.提出了一种新的基于XML的半结构数据模型ERA-SS和对建立在这种模型上的半结构数据的索引算法和查询重写算法.主要工作包括:1.由于XML是一种文档格式,而不是一种数据模型,因此,如何将XML的数据映象到一个具体的数据模型上是一个值得研究和探讨的问题.该文以OEM为基础,同时参照了W3C制定的关于XML的一系列规范,引入E-R图的丰富语义,提出了一种新的基于XML的半结构数据模型ERA-SS(Element-Relationship-Attribute model for SemiStructured data).2.建立索引可以有效提高XML半结构数据的查询效率,但是当源数据中大量存在不完全引用时,索引的规模会变得很大.因此我们提出一种以增量的方式建立索引的方法,能够有效地降低建立索引的代价.利用视图来对查询进行重写,使查询尽可能地在视图层完成,可以大大提高查询效率.但是目前的研究多集中在单路径正则表达式的查询,而多路径正则表达式的查询却是XML数据查询中普遍存在的.因此,我们针对多路径正则表达式的查询的特点,提出一种查询重写方案——两阶段查询重写算法,逐步缩小候选映射方案的搜索范围,降低查询重写的复杂度,从而实现查询的优化,提高查询的效率.