基于版本树的改进XML枝匹配算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:l123654123654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,XML(可扩展标识语言)已经成为万维网的数据表示和数据交换的标准。随着XML数据越来越多,针对XML数据的查询与处理引起了越来越多的关注。近来,大量基于将XML文档视作树形模型的XML查询算法被相继提出。然而,XML文档的半结构化性质和用户查询需求的日益复杂性又给XML数据的高效处理带来了如下新的挑战:(1) XML查询算法的输入集规模和执行时间将随着XML文档规模的增长而迅速增加;(2)由于XML的不规则性,算法返回的结果可能包含重复元素,需要后序的处理工作。因此,如何高效准确地查询大量的XML数据成为目前值得研究的一个重要课题。本文在返回结果为匹配枝和返回结果为无冗余的目标数据元素两种情况下分别提出了高效且可扩展的XML枝匹配算法Twig3Version和高效的AdvancedTwigVersion算法,针对其关键技术展开了研究,主要研究内容和特色如下:(1)在返回结果是所有匹配枝的情况下,提出了一种将已有的在原文档上的XML枝匹配算法应用于一个压缩的索引结构(版本树)的思想,并提出了简单高效的版本过滤模块和归并连接模块。在精简的版本树上执行结构匹配以及在精简的中间结果上执行版本过滤和归并连接大大提高了查询算法的性能。(2)在返回结果是无冗余的目标数据元素的情况下,AdvancedTwigVersion算法对TwigVersion算法进行了改进。通过尽可能多地利用祖先元素的标签信息,可以尽可能早地过滤掉不匹配的元素,加速了匹配的过程。另外,通过一系列的实验将其性能与一些代表性的XML查询算法在返回无冗余结果时的性能进行了比较。本文提供了理论证明和大量基于真实数据的实验结果,证实了Twig3Version算法在返回整个匹配枝和AdvancedTwigVersion算法在返回无冗余的目标数据元素的情况下均表现出了较好的性能。随着互联网的发展和时代的进步,针对XML的查询将会有更大的发展空间和更广泛的应用前景。
其他文献
随着网络技术的不断发展,网络入侵的方法和手段也日益丰富,传统的静态防御、被动防御很难满足当前网络安全的需求。基于蜜网(honeynet)技术的主动防御的安全体系逐渐成为网络
随着Internet和信息技术的迅速发展,三维模型已成为继声音、图像和视频之后的第四种多媒体数据类型。三维模型检索技术成为多媒体信息检索领域新兴的研究热点。三维模型检索
蛋白质组学(Proteomics)已经成为当前生命科学研究新的主旋律,其中的蛋白质序列鉴定对于系统了解蛋白质的结构、功能及进化关系等生物学知识具有十分重要的意义。质谱技术具有
无线Ad Hoc网络的节点之间通过无线链路通讯,且不依赖于任何预先设置的基础设施。但无线信号覆盖的范围通常比较有限,Ad Hoc网络中的端到端传输路径通常是多跳的。由于节点要
航班着陆调度(Aircraft Landing Scheduling, ALS)是机场终端区空中流量管理(Air Traffic Flow Management, ATFM)的核心,它旨在为待着陆的航班给出有效的着陆调度方案,保证
现有跟踪系统大部分采用PC机或工控机结构,主要考虑图像处理涉及数据量大、对处理器要求高的特点。然而,这种结构存在明显不足:   (1)大量无意义画面的回传,增加了数据通
手机上网具有无可比拟的优点,它不受物理条件的限制,具有灵活、不易受黑客攻击等特点。由中国互联网络信息中心发布的《2009年中国移动互联网与3G用户调查报告》中指出,截至2
随着信息化技术在钻井行业的应用,钻井工程数据呈现指数级增长方式,海量的钻井工程数据的存储、分析及利用成为当前钻井工程行业的一个热点问题。本文利用Hadoop技术,设计并
随着互联网的高速发展,网络对安全保障提出了更高的要求。传统的安全技术主要是通过修补漏洞、安装防火墙、防御外部攻击等防御手段来抗击计算机外部的病毒、黑客的攻击和入
句法分析是自然语言处理的基本任务之一,是语义理解、问答系统等自然语言理解任务实现的基础。本文根据已有的现代汉语虚词用法知识库,初步探讨了基于汉语虚词用法的短语边界