基于XML的数字图书馆检索技术研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:speed5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]随着XML数字图书馆的迅速发展,怎样快速有效地对XML文档进行查询和处理,正受到越来越多的重视,本文对XML数字图书馆检索系统进行了分类比较。并从检索模型、文档聚类、索引技术3个方面对XML数字图书馆检索研究方向进行了阐述。
  [关键词]XML检索;检索模型;文档聚类;索引技术
  DOI:10.3969/j.issn.1008-0821.2010.07.027
  [中图分类号]G250.76 [文献标识码]A [文章编号]1008-0821(2010)07-0097-02
  Research of the Digital Library Search Technology Based on XMLShen Feiju
  (Library,Nantong University,Nantong 226009,China)
  [Abstract]With the development of XML digital library,how to search and process XML documents quickly and effectively is becoming more important.This paper classified and compared the XML digital library search systems,and described the directions of research of XML digital library search in searching module,document clustering,index technology.
  [Keywords]XML retrieval;search module;document clustering;index technology
  
  1 基于XML数字图书馆检索问题的提出
  基于XML的数字图书馆正在迅猛发展,主要原因是XML作为自描述的标记语言,能够根据具体应用灵活地表现异构数据源中的各种信息,包括应用程序之间的数据交换、结构化和半结构化文档以及数据库中数据的输出。特别适合在不同系统之间进行数据格式的转换或为已有的系统设计新的功能时,可以方便的存储数据,以备能容易地被其他系统所使用,所以XML作为数字图书馆应用的数据传输和交互的格式,具有广泛的应用前景。
  XML文档充满整个互联网,但基于XML的数字图书馆也存在一个难题,那就是怎样快速有效地对XML文档进行查询和处理。随着XML数字图书馆获得越来越广泛的应用以及Web技术的不断发展,如何检索和利用XML数字图书馆信息的相关研究正受到越来越多的重视,可以预见,XML资源的充分利用将围绕着查询展开[1]。
  2 XML数字图书馆检索系统类型比较
  目前的XML数字图书馆检索系统有许多,可以将它们分为三类:即数据库方式、信息检索方式和混合方式。
  数据库方式是指将XML数据转换为数据库的数据,然后通过数据库检索技术来实现对XML数据的检索。数据库的成熟技术和优越的性能为XML的存储提供了基础:数据库通常可以处理海量的数据信息,允许多个用户同时处理信息,支持版本控制和不同级别的安全访问控制等。数据库方式的优势在于可使用标准(关系和面向对象)数据库引擎,无需投资开发新的系统;这种方法也有许多缺陷。首先,直接把遵从不同模式的异构XML文档导入数据库引擎是困难的。其次,在因特网这样的动态环境下,数据的结构会经常发生改变,这将导致数据库模式的频繁更新。
  信息检索方式可使用信息检索技术来查询XML文档,它将每个文档看作是添加了标注标签信息的文本文档。标注标签的处理方法有几种:一种方法是丢掉全部标签,该方法的优点在于简单,缺点是信息丢失,将会降低检索效果;一种方法是从要检索的XML文档中抽取重要的结构和上下文信息,并建立索引。另一种更复杂的方法是为标签建立索引,如同普通索引词一样。显然,无需为结束标签建立索引,因为开始标签已经提供了结构信息。最好的方式是为标签和元素内容建立不同的独立的索引,以便支持更灵活的检索需求。信息检索方式可以应用于XML文档的检索,以获得更好的准确率。该方法有以下3个优点:(1)现存的检索系统只需作某些修改,就可应用于XML文档的检索;(2)XML搜索引擎的使用与传统搜索引擎相似,用户无需训练即可轻松使用;(3)由于它不包括结构信息,它的索引代价更小。但是这种方式的问题是它可能不像数据库方式一样准确,因为它基于内容近似匹配的技术,不支持复杂的文档结构匹配。
  混合方式结合了数据库和信息检索方式的优点,使用较简单的查询表达实现对XML文档的内容和结构信息的查询。混合方式结合了许多流行的技术来实现XML文档的查询,例如在XQL中就把XPath路径查询和全文检索结合在一起,这种方式很可能给出一个更准确的搜索结果。混合方式的一个优点在于灵活性,既像标准信息搜索引擎一样,又像数据库引擎(充分的路径定义)一样工作。既方便初学者使用,用户可以像使用搜索引擎一样来使用它,又方便专家用户使用,以便得到更准确的查询。但是,灵活性是通过付出存储代价获得的。另外,要想得到更准确的结果,用户需掌握XPath的一些知识。
  从上面的分析可知,对于XML文档的检索,混合方式是一种较为可行的方式,如何有效地克服上述两个缺陷,为普通用户提供一种简单方便的高效的XML信息检索工具,这涉及到XML文档的检索模型的建立、文档聚类表示和索引技术等[2]。
  3 XML检索的主要研究方向
  关于XML信息检索的研究刚刚起步,依然有许多课题需要深入的研究。下面将简要阐述几个亟需进一步研究的方向。
  3.1 检索模型
  检索模型是将文档表示、查询以及它们之间关系进行建模的框架。要实现信息检索,首先需要组织信息。数字图书馆中包含文本、图像、视频、音频等数据,不能直接进行检索,需要从这些原始数据中抽取逻辑视图,以支持信息检索。用户用查询来表示信息需求。检索系统根据查询的表示,搜索文档集,获取与用户查询相关的文档。信息检索的匹配是相似性匹配,查询的结果按序返回。以上过程实际上涉及到3个重要的处理:文档集的逻辑表示、查询的表示、相似性匹配及其排序。也就是说,文档集、查询和相似性匹配决定一种检索策略和模式。对这些检索的因素和过程建模,就产生了各种不同的信息检索模型。作为著名的信息检索模型——向量模型具有许多优点,是使用最广泛的模型。如果查询需求简单,可以使用向量模型检索XML文档,它将元素视为普通索引项,向量模型将检查文档中是否包含查询给出的元素。这种简单查询有其优点,用户无需训练,不需了解文档集合的结构,并可返回近似结构匹配的结果,其缺陷是无法区分结构和内容查询。解决的办法是将结构匹配和内容匹配分开,这是对向量模型的一个自然的扩展,称作扩展向量空间模型[3]。一个查询包含两个向量:一个结构向量,一个内容向量。但是,上述方法依然没有指出元素与内容的嵌套包含关系,还需要对模型作进一步扩展,以反映元素嵌套层次对相似性的影响。
  3.2 文档聚类
  与文本文件相比,XML文档增加了结构信息,如何利用这些信息来提高聚类的效果?就此问题已经有了许多成果。但是这些方法的一个共同的缺陷是算法的复杂度很高,很难应用于Web环境下的信息检索,因此有必要研究新的更为高效的结构聚类算法。此外,如何组织聚类过程产生的文档类的结构信息,也是一个有意义的课题,这是因为通过利用反馈的结构信息,就可以较容易的帮助用户定义对文档的结构的查询。聚类技术作为信息检索的关键支撑技术,一直是信息检索研究领域的热点研究之一。对于XML文档的检索,也是如此。特别是XML包含结构信息,合理利用这些信息进行聚类,将显著提高检索系统的效果。研究结构信息的引入对XML文档聚类方法产生的影响,针对目前XML文档结构聚类方法的缺陷,研究新的结构聚类算法,将聚类结果应用于信息导航和组织,帮助用户给出恰当的查询式以及帮助用户浏览查询的返回结果。这些都是XML信息检索研究的主要问题[4]。
  3.3 索引技术
  基于XML数字图书馆的信息检索,研究高效的索引也是至关重要的。XML信息检索的一个特点是可以通过路径查询结构信息,与之相对应,为了提高查询效率,除了内容索引外,还必须对文档中的结构建立索引。目前已经有几种方法(技术)可用来对XML文档进行索引操作,根据包含结构信息的多少,将它们分为以下三类:(1)平面文件索引技术,(2)半结构化索引技术,(3)结构化索引技术[5]。由于XML本质上是一种半结构化数据,所以,半结构化索引更为适用,更能保证在检索效率和表达能力两者之间做好平衡。要实现对XML文档的结构和内容的集成查询,满足Web环境下对查询速度和存储空间的苛刻要求。可以将XML文档的路径信息映射为字符串,建立路径字符串的后缀索引。同时,把对XML文档结构信息查询的路径信息映射为字符串,这样,路径查询就转为后缀树中的字符匹配。还可对传统后缀树生成算法作改进,用来构建由路径集合生成的字符串集合的广义后缀树,产生高效的查询处理方法[6]。这样处理的特性:第一,索引可以在线性时间内构造,并且是可增量维护的。第二,只需线性存储空间。第三,查询处理只需要匹配m个字符,其中m是结构查询表达式的长度。所有这些特性非常适合Web环境,即较小的存储代价和较高的查询处理效率。
  4 总结与展望
  在数字图书馆信息资源极大丰富的情况下,研究XML信息检索技术已成为一项重要而迫切的研究课题。一个尚未解决的问题与用户定义的文档结构有关。由于文档结构来自不同的数据源,导致标签定义和文档结构的异构性,这将影响搜索引擎的召回性能。另一个有关的问题是与多种语言有关,因为XML是由Unicode编码的,来自不同数据源的标签名字可能用不同的语言定义。由于一个单词可能有不止一种译文或者没有对应的译文,怎样做适当的翻译是多种语言的XML文档检索的一个问题。
  这两个问题将影响XML文档检索方式,XML正处于不断完善之中,已开始得到越来越多用户的认同。虽然目前基于XML文档的搜索引擎技术还没发展成熟及投入广泛使用,但它的前景将是十分广阔的。
  
  参考文献
  [1]孙登峰,喻晓峰.XML查询语言研究[J].计算机工程,2003,(13):4-6,42.
  [2]姜科,陆伟,等.XML检索系统及其比较研究[J].现代图书情报技术,2007,(10):66-70.
  [3]陆伟.元素级XML检索模型构建的关键问题与解决方案研究[J].中国图书馆学报,2007,(6):58-61.
  [4]王能斌.数据库系统原理[M].北京:电子工业出版社,2000.
  [5]K.Zhang and D.Shasha.Simple Fast Algorithms for the Editing Distance Between Trees and Related Problems[J].SIAM J.Comput.,1989,18(6):1245-1262.
  [6]Grefenstette,G..Cross-language information retrieval.Dordrechet:Kluwer Academic Publisher,1998.
其他文献
本文在分析了公益性信息服务政府管制基本功能的基础上,研究了政府逐步放松进入管制、积极加强投资管制、实行价格分类管制等基本现状;提出采用平等准入、公平待遇,建立规范的退
某沉积型硅钙质低品位磷矿的碎解特征为磨矿后粗细粒级矿石分布不均,但是目的矿物分布较均匀。本研究分别考察了利用浮选机、浮选柱和柱机联合3种流程处理该难选矿石的效果,
目的探讨迪康凝胶对烫伤大鼠创面愈合的效果及作用机制。方法将SD大鼠随机分为模型组、美宝烫伤膏组、迪康凝胶组,3组均采用超级控温烫伤仪,造背部深Ⅱ度烫伤。模型组不给药,
网络信息检索是大学生获取有效信息十分快捷的途径和手段,但由于缺乏相应的检索技能和技巧,大学生网络信息检索的效率相对不高,且存在一定误区。文章基于网络信息检索现状,重