论文部分内容阅读
显式语义分析技术ESA,通过对知识库(如Wikipedia)的处理,构造出各个词到每个概念的倒排索引,并且计算出词到每个概念的权值,表示词与概念的相关度。因此,这个倒排索引可以看作是由词-概念组成的向量空间模型。通过计算词-概念向量之间夹角的余弦值,可以计算文本与文本的相关度,进而实现一词多义在文本中的消歧义功能等。 本文利用显式语义分析技术,计算OWL领域本体中的概念相似度。首先利用基于如今最大的知识库(维基百科)的显式语义分析建立倒排索引表,把表中词-概念的权值作为阈值,加入到本文提出的本体实体层、属性与数据类型的计算公式,再联合本文提出的结构层计算公式,更加客观、合理地计算OWL领域本体中的概念相似度。语义Web构建的基础是把各领域本体关联在一起,这样就需要领域本体之间的互操作。一些本体概念从字面意思上有区别,但是通过概念属性、概念关系的相似度计算能有效地进行区分。以往前人在计算本体概念相似度的方法中,存在着某些可调的阈值,这些阈值使计算出来的值,缺乏合理的依据。通过实验,计算DBpedia中建立的OWL本体,对比Lin、Yang等人提出的方法,本文对于领域本体概念相似度的计算更加合理。本文把基于维基百科的显式语义分析方法应用于本体概念相似度计算中,有助于语义Web的构建。