基于XML关键词检索的索引技术及其相关算法研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:wangluochg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从XML,诞生以来,越来越多的数据以XML文档格式存储和发布,XML已经成为Internet和Intranet上数据集成和交换的标准,被广泛应用于电子商务、内容管理、多媒体、数字图书馆以及中间件等众多的领域。如何高效的的索引、存储以及检索互联网上的XML数据成为一个具有显著现实应用意义的研究课题。   XML数据与传统文本数据的最大区别是:XML数据含有丰富的层次结构信息。这使得XML能够更加精确地描述数据以及数据之间的关系。如何将XML数据所包含的层次结构信息存入索引中并使之能支持高效的关键词检索算法成为XML关键词检索研究中的核心问题之一。   Dewey编码是一种能有效保存XML层次结构信息的方法,也是目前关键词检索中最流行的方法之一。研究人员提出了很多基于Dewey编码的检索算法,如栈算法、Scan Eager算法等。但是,Dewey编码有两个明显的不足:首先,XML元素的Dewey编码长度与XML元素在XML树中的深度成正比;其次,在很多算法中,比较两个Dewey编码大小的操作是一个原子操作,而比较两个Dewey编码大小的时间复杂度是O(N),其中N为杜威编码的长度,在处理大规模的XML数据集时,这将严重影响检索算法的性能。   为了克服Dewey编码的不足,本文提出了LAF编码策略,对于任意一个XML元素,其编码的长度恒为3;在LAF编码基础上,结合XML,文档的自身特征,设计了一种能支持高效XML关键词检索算法的二层索引结构;最后,文章实现了一个基于堆的高效XML,关键词检索算法HBA,HBA算法能有效支持各种XML检索语义模型。   通过在多个数据集上的对比实验,与传统的索引方法相比,基于LAF编码的二层索引方法具有较大的空间效率优势;与传统的关键词检索算法相比,HBA算法不仅具有较大
其他文献
软件国际化是指,在设计软件时将软件与特定语言与地区脱离的过程。它对于开发者来说是一个有挑战性的任务,特别是在软件当初设计时没有考虑这个问题的时候。在软件国际化过程
大学堂是一个分布式的教学视频共享系统,具有高可靠性,可扩展性。本文基于大学堂的实际应用需求-在服务器间传输大的视频文件,提出了一种基于多路径与并行TCP的数据传输技术,
数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,它引起了科学界和产业界的广泛关注。关联规则挖掘作为数据挖掘领域的一个重要研究分支,它的任务是发现所有满足支
学位
近年来,随着Web规模的不断扩大,Web中蕴含了越来越丰富的信息。随着搜索引擎的出现以及商业搜索引擎功能的日益增强,人们越来越多的利用搜索引擎来寻找和挖掘Web中蕴含的知识
目前,随着搜索引擎使用人群不断增长,其商业价值也日益突显出来,同时作为搜索引擎本身,也需要有一定的盈利模式来支撑它的发展。此时,竞价排名应运而生,现已成为搜索引擎最主要的收
随着硬件技术和移动网络技术的快速发展,以智能手机为代表的嵌入式系统的硬件性能越来越强,软件应用越来越丰富,使得嵌入式设备在性能和功能上越来越接近微型个人电脑。性能
随着互联网基础设施和各种互联网应用的快速发展,多媒体内容如音乐、影视、图片等已经占据了互联网绝大部分的流量。在文字搜索的领域,传统的搜索如Google,百度都已经有很成
随着计算机网络的飞速发展和信息化的推进,数据集成技术得到了越来越广泛而深入的应用,也引起了学术界和工业界的高度重视。XML由于其半结构化等特性使其能够集成来自不同数
随着数据库管理系统应用环境的不断变化,一方面,数据管理、数据访问等相关技术变得越来越复杂;而另一方面,维护成本变得越来越昂贵。于是,企业为了更好地专注于所擅长的业务领域,会
随着计算机和网络技术的发展,工具书由纸质载体逐渐向电子版本的方式发展,商务印书馆拥有一百多年的历史,是国内首屈一指的出版和文化机构,至今出版各类书刊近5万种,其中包括大量