论文部分内容阅读
在语义网中,本体是对领域概念化的建模,以便基于本体构建的应用系统可以通过共享领域知识来实现互操作。然而,由于构建本体的目的不同,描述同一领域的本体在覆盖面、粒度、命名和结构等方面存在很大差异,从而阻碍了知识的共享与重用。针对本体异构问题,本体匹配(ontology matching,简称OM)通过建立不同本体之间实体(类、属性或实例)的对应关系来促进语义集成、重用和互操作。 形式概念分析(Formal Concept Analysis,简称FCA)作为数据分析和结构化概念的强有力数学模型,用形式背景(formal context)来表达数据中对象(object)、特征(attribute)以及它们之间的二元关系,从中提取所有隐含的形式概念(formal concept)和它们之间的层次结构,构成概念格(concept lattice)。实际上,由形式背景生成概念格的过程是一种概念聚类的过程。早在本体匹配问题提出的初期,FCA就被用于这项研究。然而,已有的基于FCA的本体匹配方法存在一定的局限性。首先,这些方法仅使用了部分本体知识,只构建了单一层面的形式背景。其次,这些方法只获得了不同本体类之间的一对一关系,并且没有对属性等其他实体进行匹配。针对这些问题,我们提出了新的基于FCA的本体匹配方法FCA-Map,使用尽可能多的本体知识来最大程度地发掘FCA在解决本体匹配问题中的能力。 FCA-Map充分利用FCA来对本体间实体相似性进行聚类,从术语层面、结构关系层面、公理层面逐层、递增式地构造多个形式背景,从获得的概念格中逐步得到词汇匹配、验证匹配、属性匹配和复杂匹配。本文工作主要包括以下三个方面: 1.提出基于分词形式背景的类匹配方法。利用本体中的类名称、标签、异名等文本信息构建形式背景,通过计算概念格来获得不同本体的类在术语层面的相似度,从中抽取出初始类匹配结果。在2016年国际本体匹配竞赛(Ontology Alignment Evaluation Initiative,简称OAEI)中的解剖学本体和大型生物医学本体数据集上进行实验,与另一种基于分词的匹配方法TFIDF方法相比,我们的方法是从全局来分析不同本体类之间在术语层面的共性,匹配结果具有更高的质量。 2.提出基于结构关系形式背景的匹配验证方法和类匹配方法。构建基于结构关系的形式背景来刻画本体中的类与初始类匹配中的类之间存在的分类关系(taxonomic relationships)、部分整体关系(partonomic relationships)和不相交关系(disjoint relationships),通过计算概念格来获得初始类匹配之间的正面与负面结构证据,从而对初始类匹配进行不一致性修复和过滤。然后,我们利用验证后的匹配,构建基于支持结构关系的形式背景,从结构层面获得新的匹配结果,包括一对一匹配和复杂匹配。在OAEI2016中的解剖学本体和大型生物医学本体数据集上进行实验,实验结果表明类匹配验证方法在确保一定召回率的前提下,提高了初始类匹配的准确率,FCA-Map的性能与OAEI2016中排名前列的本体匹配系统相媲美,说明了我们从不同层面递增式地构建多个形式背景来识别和验证匹配的方法的有效性。 3.提出基于公理的对象属性匹配方法和类匹配方法。利用已得到的类匹配结果,构建基于对象属性的形式背景来刻画由公理得出的对象属性和类匹配之间的连接关系,通过计算概念格对属性相似性进行聚类,从而得到属性匹配。然后利用已得到的类匹配和属性匹配构建基于约束的形式背景,从计算得到的概念格中抽取出新的一对一匹配和复杂匹配,在这些复杂匹配中,一个本体中的类被对应到由另一个本体中的类和属性构成的语义表达式。我们在OAEI2016中的大型生物医学本体数据集上进行实验,验证了方法的有效性。 与OAEI2016中的其他本体匹配系统相比,FCA-Map以数学模型为基础,不仅性能可以与排名前列的本体匹配系统相媲美,还获得了其他系统得不到的结果,表明了FCA-Map多层形式化概念建模方法的有效性。与已有的基于FCA的本体匹配方法相比,FCA-Map更全面地将FCA理论用于解决本体匹配问题,从多个层面递增式地构建形式背景,通过构建概念格来对不同本体间实体的相似性进行聚类,逐步获得、验证与完善匹配结果,除了一对一类匹配,FCA-Map还获得了类之间的复杂匹配以及对象属性匹配。