XML关键词检索算法的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:zhangjiakou00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点。本文通过研究XML文档树的特点以及杜威ID的相关性质,提出了求解SLCA模型的NearestPair算法以及新的XML关键词检索模型XTree。 本文以DBLP和中文Wiki数据集为基本数据集,以Xerces-C和BerkeleyDB为辅助技术,以XTree检索模型为核心内容构建了一个XML关键词检索系统,并以此作为实验平台,检验了NearestPair算法和XTree的性能。 NearestPair算法在实验搭载的所有环境中都优于目前最佳的Eager算法,这是因为NearestPair使用二分迭代查找技术寻找最邻近点对,提高了中间结果命中SLCA的概率,将求解LCA的次数降低了一个数量级。 XTree是一个具有高效率和高查全率的XML,关键词检索模型,相比SLCA,XTree能够涵盖每一个关键词节点,并返回给用户易理解的树形结果。实验表明,XTree对于关键词节点集合的大小以及查询关键词的数量都有很好的可扩展性。但是在相同情况下XTree的求解代价要远远高于SLCA,虽然XTree模型返回更多的结果是造成这一差异的主要因素,但是XTree算法自身也还有优化的余地。
其他文献
时间序列相似查询是从时间序列数据中查找与给定序列相似的序列或子序列,是一种新型的、重要的时间序列数据分析方法,具有广阔应用前景。本文在综合分析国内外时间序列相似查
伴随着计算机网络技术的进步,企业、政府机关等单位信息化建设蓬勃发展,极大提高员工工作效率的同时,也带来了非常严峻的网络安全问题。计算机病毒、木马和黑客入侵时时威胁着企
从20世纪60年代至今,地理信息系统(GIS)已迅速发展成为一个独特的研究与应用领域,并形成一个全球性的重要行业。GIS的应用非常广泛,它可以应用在公用事业、电信、交通、城市应急
随着喷墨技术及其应用的高速发展,喷墨质量的自动和精确检测越来越重要。喷头喷出的墨滴运动是喷墨质量的直接和重要表现,墨滴运动的主要特征是大小、长度、飞行速度、飞行方向
虚拟环境是一种逼真的视、听、触觉一体化的计算机生成环境,用户可以借助必要的装备以自然的方式与虚拟环境中的物体进行交互作用、相互影响,从而获得亲临等同真实环境的感受和
Internet正在由最初的内容服务的提供者开始逐渐发展成为以提供计算能力为核心的高层次应用服务的提供者。越来越多的计算资源以服务的形式加入到Internet中,通过某种方式实现
句法分析是自然语言处理中的一个基本问题。许多自然语言处理中的任务,比如语义分析、机器翻译、信息抽取等,其完成的好坏依赖于句法分析的准确率。另一方面,话语是人与人之间交
资源空间模型是面向互联网络环境的基于正交分类语义的资源组织模型。它采用多维资源空间的方式组织资源,支持有效的资源管理。本论文的创新点主要包括:   1.提出资源空间模
WinWin项目管理理论提出项目成功必须让所有的涉众达到共赢。如何让涉众达到共赢是需求协商需要解决的问题。实践证明Easywinwin,ARENA,ARENA-M这些基于WinWin的协商工具在获取
基于内容的视频检索技术在过去十几年取得了很大进展,但是由于视频内容底层特征与高层语义之间存在“语义鸿沟”,视频内容无法有效地映射到用户的查询语义。交互式视频检索技术