论文部分内容阅读
现在的Web(万维网)已经成为传统Web信息与语义网(Semantic Web)信息共存和交融的信息空间。近年来,这两种类型的信息都得到了爆炸式的增长。如何从这个海量的、异质的信息空间中快速、方便地找到需要的信息对人们的工作和生活具有重要的意义,同时又极具挑战。目前的商业搜索引擎已经能够满足人们大部分搜索需求,其搜索目标是传统的Web信息,搜索的技术针对的是传统Web信息组织的方式和特征。然而,伴随着语义网的发展,Web信息检索问题也在悄然发生变化。大量语义网文档的出现,使得语义网的搜索问题成为Web信息检索问题的重要组成部分。此外,语义网技术能够帮助计算机更加高效地处理Web信息,从而给人们改进Web信息的检索方式,提供更加有效的搜索服务带来了新的契机。
随着语义网的发展,语义搜索逐渐成为Web信息检索的一个发展方向。本文在现有工作的基础上,从三个方面进行了深入的研究:语义网文档的搜索,语义网实体的快速理解,以及利用语义网技术改进传统Web信息检索。论文的主要贡献包含下面三个部分:
(1)基于语义网数据组织的特征,提出了一种改进的语义网文档搜索方法。在文档分析和索引时能够保留语义网文档的结构信息。引入跨文档重用的信息,从而在构建词向量中加入更加完整的信息。此外,从查询相关的证据和文档的元数据两个方面提取文档片段,使得用户更方便地判断文档的相关性。在大规模真实数据集上的实验表明,该方法可以显著地提高文档检索的效率,在可用性上具有明显的提升。
(2)为了帮助人们快速准确地理解语义网实体,提出了一种在开放环境下对实体数据进行组织和摘要方法。针对语义网数据的无序特性,提出一种自动聚类的方法,根据数据的主题对实体数据进行聚类。为了应对数据的可信度问题,从权威性维度上对实体数据进行分类。针对实体数据的大规模特性,提出实体数据摘要的方法,仅提取出重要的句子显示给用户。实验结果显示该方法能够有效地帮助人们快速理解语义网实体,在用户比较熟悉语义网数据模型的情况下,使用该方法能够提高20%左右的效率。
(3)以足球领域的图片搜索系统为切入点,探讨语义网技术与传统Web信息搜索的结合。提出一种领域对象自动识别技术,在对足球图片进行分析时自动标注其中的领域对象,使得基于领域知识库的语义搜索成为可能。此外,提出一种基于语义关联的语义搜索方法,并实现了一个直观易用的语义查询输入界面,从而能够支持相对复杂的信息需求。实验表明这种语义搜索方式能够很好地提升图片搜索的性能。