论文部分内容阅读
近年来,随着Internet的迅猛发展,XML已经成为数据交换和表示的主要标准。由于XML具有良好的可扩展性和跨平台性,越来越多的信息以XML文件的形式进行交换和存储。XML数据的一个特点是存在较大的数据冗余,会造成存储空间的浪费、查询效率的降低。因此,对XML数据行有效压缩和查询成为XML数据库研究领域的一个重要的研究问题。 本文主要研究XML数据的压缩和查询技术,对XML数据的存储模式拆分调整、XML数据的规范化存储、XML数据的相似性分析、频繁子树的挖掘、基于树文法的压缩、基于签名自动机的压缩数据查询技术等方面进行了深入的研究,提出了有效的算法。 本文的研究工作主要围绕以下几个方面进行: 首先对XML的研究历史与现状进行综述,分析了当前XML数据压缩与查询的研究现状和目前已有XML数据压缩方法的不足,并指出了研究主题及目标。 其次,提出了XML模式规范化方法,利用函数依赖和规范化规则发现和消除XML文档中存在的冗余结构,实现在语义一级消除XML数据冗余;研究并阐述了基于树文法的XML数据压缩方法。研究了XML文档集之间和文档内部的结构冗余问题,并在此基础上,通过对文档集进行聚类、发现频繁子树,最终实现压缩,并对所提出的算法进行了实验,验证了算法的功能和有效性;提出了基于压缩域的XML压缩数据查询处理方法。为了实现非完全解压缩状态下的查询处理问题,提出将签名技术和自动机技术相结合的基于签名自动机的查询处理算法,实现XML压缩数据在非完全解压缩状态下的查询处理;提出了XML数据存取控制规则的压缩与查询方法。为了处理XML压缩数据的安全控制,以及由此带来的存取控制规则规模膨胀的问题,提出了基于DAC模型的存取规则剪枝处理方法,有效地压缩存取控制规则所占用的空间,并给出了规则压缩的查询处理方法。