论文部分内容阅读
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点。本文通过研究XML文档树的特点以及杜威ID的相关性质,提出了求解SLCA模型的NearestPair算法以及新的XML关键词检索模型XTree。
本文以DBLP和中文Wiki数据集为基本数据集,以Xerces-C和BerkeleyDB为辅助技术,以XTree检索模型为核心内容构建了一个XML关键词检索系统,并以此作为实验平台,检验了NearestPair算法和XTree的性能。
NearestPair算法在实验搭载的所有环境中都优于目前最佳的Eager算法,这是因为NearestPair使用二分迭代查找技术寻找最邻近点对,提高了中间结果命中SLCA的概率,将求解LCA的次数降低了一个数量级。
XTree是一个具有高效率和高查全率的XML,关键词检索模型,相比SLCA,XTree能够涵盖每一个关键词节点,并返回给用户易理解的树形结果。实验表明,XTree对于关键词节点集合的大小以及查询关键词的数量都有很好的可扩展性。但是在相同情况下XTree的求解代价要远远高于SLCA,虽然XTree模型返回更多的结果是造成这一差异的主要因素,但是XTree算法自身也还有优化的余地。