关系-XML无缝集成数据库系统中关键字查询技术的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:HalfHour
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着XML逐渐成为数据表示和数据交换的标准,XML在越来越多的领域得到了广泛的应用,XML文档的数量也在逐渐增多,如何从大量的XML文档中搜索出用户满意的结果已经成为数据库领域一个重要的研究方向。本文依托于国家863数据库重大项目“无缝集成的关系-XML双引擎数据库管理系统研制及其示范应用”,设计并实现了XML关键字查询的功能。文中将XML关键字查询分为带有复杂结构和不带有复杂结构的关键字查询。带有复杂结构的关键字查询即为结构查询,它能够精确的表达用户的查询要求,但同时对用户要求很高,要求用户掌握复杂的查询语言,了解XML文档的模式信息,适用于高级程序员或数据库管理员;不带有复杂结构的关键字查询即为关键字查询,它对用户要求低,适合于广大的普通用户,用户只需输入感兴趣的一个或多个关键字,系统就会返回满足用户查询意图的结果。文中首先介绍了关键字查询的设计,包括存储XML文档信息的XmlInfoRelation表的结构,存储索引词及索引词的各种信息的倒排索引和关键字查询及结构查询用到的一些算法。XmlInfoRelation表中存储了XML文档的文本内容和模式信息,是XML文档的另一种表示形式,倒排索引建立在表中的文本列上,在倒排索引中,存储了每个索引词在XML文档中的详细位置信息。在此基础上,提出了一个适合本系统的关键字查询算法CoSQLRXSE,并与ILE算法进行了比较。其次,介绍了关键字查询的具体实现过程。以一个XML关键字查询实例来具体介绍关键字查询具体涉及到的数据结构和算法,接下来对所有的数据结构和算法分为三个方面进行实现方面的介绍,这三个方面包括从倒排索引中或扫描XML文档来提取所需要的查询信息,根据查询条件对提取的信息进行判断,将满足查询条件的XML文档或文档片段返回给用户。最后,本文进行了实验测试与分析。文中采用XMark测试基准对系统中不同规格的XML文档进行关键字查询测试。实验结果表明,本文所设计的XML关键字倒排索引能够显著的加快查找速度,本文提出的算法能够很好的结合系统存储的特点,高效的返回查找结果。
其他文献
WAP技术的发展使手持设备也可方便地访问网络资源,但单独为这些设备开发适合其访问的网页需要投入多余的资源,开发出的网页也因为设备多样性的问题难以适应所有设备的显示。面
随着Web2.0技术的发展,用户越来越注重在互联网上交流和反馈,于是大量的评论和评价信息随之出现。这些用户生成内容,一方面可以提高读者体验,另一方面又可以用来追踪事件发展
基于内容的音乐情感识别是近年来在音乐信息检索领域新兴起的重要研究课题之一。它的提出是为了解决不断增长的海量数字音乐的管理问题以及人们多样化的音乐检索需求问题。基
在互联网高速发展和个性化的需求日益增长的环境下,当前主流的基于轮廓线的字体描述方法处理以笔画为基本结构的汉字字符时,已经很难满足个性化的需求。因为在这样的描述方法
可靠性是衡量产品发生故障难易程度的—个指标,是产品的一种固有属性。在工程设计和航空航天领域,高可靠性产品才能满足现代技术和生产的需要,才可以获得高的经济效益和拥有
随着Web技术的不断发展,在线考试系统已经被广泛的应用到各个领域之中,对系统的性能和功能都提出了更高的要求。因此,能否提供更高效、更便捷、功能更完善的在线考试系统将是
访问控制是信息安全体系中非常重要的一环,是实现数据保密性和完整性机制的主要手段,访问控制模型及其扩展一直是一个重要的研究课题。随着应用系统复杂度的提高,复杂的应用环境
随着电子商务越来越受欢迎,网络上的产品评论数量获得快速增长。对于一个流行的产品,评论数量可以达到成千上万条。这使得一个潜在客户很难通过阅读这些评论来制定他们的购买
自然语言文本之间的推理和反义关系被视为文本语义关系的核心,在很多自然语言处理任务中(如信息检索,文档摘要,问答系统等)都有着广泛的应用。   自2005年第一届文本推理识别
随着信息时代的到来,产生了海量的数据,这些大量数据的背后隐藏着许多人们所需要的信息和知识,人们迫切需要将这些数据转换成有用的信息和知识。数据挖掘就是随着人们的这一