论文部分内容阅读
XML己成为Web上数据表示、集成和交换的标准,它的格式简单、自我描述能力强,实现了内容、结构和表现三者的分离,更适合于数据表示和交换。近年来,XML在各个领域得到了广泛的使用,Web上已经涌现了大量的XML数据。为了有效地加工、分析和处理XML数据,国内外学者已经提出了各种XML的查询语言技术。由于关系数据库是目前最成熟的一种数据管理技术,在存储和管理XML数据的各种方式中,XML-Enabled数据库查询技术显然是一种可行而有效的方式,并在学术界受到了广泛的关注。然而,由于数据模型的差异,利用关系数据库存储和查询XML数据给传统数据库技术带来了许多新的挑战。
本文对XML路径表达式的查询处理等方面进行了深入的研究和探讨,具体来说,主要工作如下:
1.以有限自动机为工具,给出了XML、XML Schema、路径表达式的自动机表示形式以及它们之间的关系。研究了在给定XML Schema的情况下路径表达式的简化算法,以及相关的路径表达式的性质,在这个过程中使用了有限自动机方法。正则路径表达式经过这个简化过程以后才能方便、高效地使用SQL/DOM来回答XML查询;把等价的简单正则路径表达式聚成一个等价类可以减少它的计算成本。
2.在查询执行过程中,对查询表达式进行分解,把复杂查询分解为多个简单查询,然后对查询中间结果进行连接。在优化设计了查询中的分解连接算法基础上,把扩展的Li-Moon编码和SuffTndex后缀树引入扩展MPMGJN算法,最后利用该算法对XML数据进行查询实验,并对结果进行了分析。
3.提出了一种新的基于路径的XML数据的关系存储方法。该方法完整无损地记录了XML文档中的各节点信息、边信息和值信息,即在关系表中存储XML文档中各元素的name、id、parentid、levelp以及所有有值元素/属性的路径,加快了查询处理的速度。
4.针对这种存储结构,提出了新的基于表连接的查询转换算法。这种方法可以将不同形式的路径表达式转化为SOL查询语句来处理。
5.构建了一个基于关系数据库存储和查询XML文档的原型系统。论文提出的存储转换和查询处理方法已在该原型系统中实现,并利用实际的XML文档对系统进行性能测试,实验证明本文的工作是可行而有效的。