论文部分内容阅读
在互联网迅速发展、Web信息资源急剧增长的背景下,传统的信息检索由于信息源的固有特点和检索技术的缺陷,无法找到语义上匹配的信息,导致漏检、误检现象,从质量和效率上都不能满足用户需求。人们试图将各种先进的思想和方法引入信息检索领域中,促进其理论和技术的深层次变革。语义网的创始人——Tim Berners-Lee倡导的下一代万维网,旨在赋予Web上的信息以语义支持,通过本体技术,在资源之间建立起机器可处理的各类语义联系。语义网是当代万维网的扩展和延伸,它能够提高异构系统之间的互操作性,促进知识共享。语义网的核心——本文论,是人工智能领域的一种先进的知识表示技术,它通过明确定义概念和概念间的关系反映事物或现象的本质。基于本体的语义检索作为智能信息检索技术的一个重要领域,利用本体构建可共享、概念化的知识空间,实现对知识内容的结构化描述,具有一定的语义处理能力和较好的自然语义理解能力,而且可以处理概念关系逻辑,因而对于提高信息检索的质量和促进信息资源的利用率和共享,具有重要的研究价值。本文主要工作如下:分析和总结了信息检索技术概念、发展状况和存在问题与不足,介绍了基于本体的语义检索的研究现状。通过对现有本体技术理论和语义查询技术进行分析和研究,在本小组已有研究成果的基础上,提出了一个基于本体的语义检索系统的模型,详细描述了系统的设计思想、主要功能和运行流程。对本体查询涉及的主要技术和实现方法进行了深入的研究,探讨了本体持久化、语义推理、SPARQL语言及其通过Jena的实现。在此基础上,提出了基于查询重写和关联搜索的本体查询算法,详细论述了算法的思想和流程,分析了算法的可行性和实现难点。本文最后开发实现了一个基于查询重写和关联搜索算法的系统原型OSea,该系统以任意本体为查询载体,具有多种检索模式,并利用基于带权语义距离的语义相关度进行结果排序,验证了本文研究的算法的有效性和可行性。本文通过对本体技术,特别是本体检索所涉及的若干关键技术进行了深入的分析研究,对于解决信息检索效率不高、信息利用率低的问题,提出了一套有效的解决方案,该模型不仅能够处理基于本体的语义关系,能处理概念之间的关系逻辑,并且能进行语义扩展。通过实验证明应用了该算法的语义检索模型,在使用方法、查询效率和效果上相对于传统的信息检索有一定优越性。最后本文实现了该模型的原型——OSea系统,通过实践验证了系统模型的可行性。