论文部分内容阅读
目前,随着语义网的发展,本体越来越多地在各个领域被应用,使得本体演化开始受到越来越多的研究者重视。为本体提供一种有效的演化方法,使它能够及时地得到更新以适应各种变化成为本体工程研究领域和语义网研究领域的重要问题。不同的本体演化研究有着不同的侧重点,主要有两类:本体知识更新和保持本体演化后的语义一致性。今天Web拥有的信息能够及时而全面地反映领域知识和领域知识变化,这无疑使它成为本体演化的理想驱动源。同时,Web信息的海量性使得本体演化所需要的新知识在其上呈现了许多统计特征,为发现本体演化的证据提供了有效途径。这些统计信息做为辅助决策的事物,为本体工程师判断如何演化本体提供了支持。
基于这种观察,本文提出了领域新词归类的研究目标。领域新词归类,就是将已知的领域新词归入本体中已有的某个概念,从而为领域工程师合理依据领域新词来更新本体提供线索和推荐。从这个研究目标来看,本文的研究属于本体演化的范畴,且主要侧重于辅助本体知识更新。具体的,领域新词被分为两种情况:代表本体中已有概念名的同义词和代表本体中已有概念的实例。根据这两种情况,本文提出的方法分别计算领域新词与概念的同义性分值和做为概念实例与概念的相似度分值。依据这两个分值,做出领域新词归类的判断。本文中的领域新词归类实现同时依赖于本体中的语义信息和Web上的统计信息,并有效地将两者结合起来。领域新词归类对本体中语义信息的利用并不是完全的,而是使用了其中部分的语义信息。所以,在本文的研究中,提出了一个语义模型。该模型基于领域本体,但只涵盖了本体中部分的语义信息。语义模型中的这些信息就是应用所需要的所有语义信息。除了本体提供的语义信息,领域新词归类同时还依赖于Web上的统计信息。Web上的统计信息主要借助信息检索和机器学习领域的查询扩展(Query Expansion)以及利用通用搜索引擎近似估计词汇在Web海量数据上的共现情况来获得。
在论文的后面,通过一个实际应用一手机领域的应用,对本文所提出的方法进行了验证。首先构建了一个手机领域本体,它包含了手机领域的基本概念、关系。并且,还添加了一些必要的实例。因为在本文的应用中,实例数据为之后的领域新词归类提供了支持。然后以此本体为基础得到一个简化的语义模型,并使用本文提出的方法对挑选出的具有代表性的领域新词进行实验。通过对实验结果的评测和分析,可以看出此方法对手机领域新词做为概念名和实例名的情况下进行归类具有显著的有效性。