论文部分内容阅读
互联网包含了海量的信息,搜索引擎成为了人们日益重要的信息检索工具。传统搜索引擎由于不能对网页语义进行理解,仅能依靠关键字匹配和PageRank为用户列举相关网页列表。而随着互联网信息的持续增多和人们对精确查询需求的增加,传统搜索引擎逐渐不能满足人们的查询需求。为了克服传统搜索引擎的各种弊端,知识搜索应运而生。知识搜索根据用户查询语句分析用户查询意图,从网页中找出相应概念及概念相关知识将知识直接返回给用户,而不再不需要用户自己去筛选总结,大大方便了用户的搜索操作。知识抽取作为知识搜索要解决的核心问题之一日益受到研究者的关注。
本文提出了两种知识抽取方法,基于自然语言处理技术的结构化知识抽取方法和基于Ontology的知识抽取方法,并详细描述了其算法框架和实现步骤。通过实验,前者在NTCIR RITE评测任务中取得了高于基准16.6%的正确率,证明了其在缺乏Ontology支持背景下的知识抽取有效性。而在基于Ontology知识库的知识抽取实验中,后者抽取效果则明显超过了前者,达到83.13%的准确率和87.5%的召回率。另外,本文详细介绍了以Ontology为核心的知识库及其查询接口的设计和实现方法,并对知识搜索系统其它各模块给出了设计方案。