基于形式概念分析的本体匹配方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:chenbenxia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语义网中,本体是对领域概念化的建模,以便基于本体构建的应用系统可以通过共享领域知识来实现互操作。然而,由于构建本体的目的不同,描述同一领域的本体在覆盖面、粒度、命名和结构等方面存在很大差异,从而阻碍了知识的共享与重用。针对本体异构问题,本体匹配(ontology matching,简称OM)通过建立不同本体之间实体(类、属性或实例)的对应关系来促进语义集成、重用和互操作。  形式概念分析(Formal Concept Analysis,简称FCA)作为数据分析和结构化概念的强有力数学模型,用形式背景(formal context)来表达数据中对象(object)、特征(attribute)以及它们之间的二元关系,从中提取所有隐含的形式概念(formal concept)和它们之间的层次结构,构成概念格(concept lattice)。实际上,由形式背景生成概念格的过程是一种概念聚类的过程。早在本体匹配问题提出的初期,FCA就被用于这项研究。然而,已有的基于FCA的本体匹配方法存在一定的局限性。首先,这些方法仅使用了部分本体知识,只构建了单一层面的形式背景。其次,这些方法只获得了不同本体类之间的一对一关系,并且没有对属性等其他实体进行匹配。针对这些问题,我们提出了新的基于FCA的本体匹配方法FCA-Map,使用尽可能多的本体知识来最大程度地发掘FCA在解决本体匹配问题中的能力。  FCA-Map充分利用FCA来对本体间实体相似性进行聚类,从术语层面、结构关系层面、公理层面逐层、递增式地构造多个形式背景,从获得的概念格中逐步得到词汇匹配、验证匹配、属性匹配和复杂匹配。本文工作主要包括以下三个方面:  1.提出基于分词形式背景的类匹配方法。利用本体中的类名称、标签、异名等文本信息构建形式背景,通过计算概念格来获得不同本体的类在术语层面的相似度,从中抽取出初始类匹配结果。在2016年国际本体匹配竞赛(Ontology Alignment Evaluation Initiative,简称OAEI)中的解剖学本体和大型生物医学本体数据集上进行实验,与另一种基于分词的匹配方法TFIDF方法相比,我们的方法是从全局来分析不同本体类之间在术语层面的共性,匹配结果具有更高的质量。  2.提出基于结构关系形式背景的匹配验证方法和类匹配方法。构建基于结构关系的形式背景来刻画本体中的类与初始类匹配中的类之间存在的分类关系(taxonomic relationships)、部分整体关系(partonomic relationships)和不相交关系(disjoint relationships),通过计算概念格来获得初始类匹配之间的正面与负面结构证据,从而对初始类匹配进行不一致性修复和过滤。然后,我们利用验证后的匹配,构建基于支持结构关系的形式背景,从结构层面获得新的匹配结果,包括一对一匹配和复杂匹配。在OAEI2016中的解剖学本体和大型生物医学本体数据集上进行实验,实验结果表明类匹配验证方法在确保一定召回率的前提下,提高了初始类匹配的准确率,FCA-Map的性能与OAEI2016中排名前列的本体匹配系统相媲美,说明了我们从不同层面递增式地构建多个形式背景来识别和验证匹配的方法的有效性。  3.提出基于公理的对象属性匹配方法和类匹配方法。利用已得到的类匹配结果,构建基于对象属性的形式背景来刻画由公理得出的对象属性和类匹配之间的连接关系,通过计算概念格对属性相似性进行聚类,从而得到属性匹配。然后利用已得到的类匹配和属性匹配构建基于约束的形式背景,从计算得到的概念格中抽取出新的一对一匹配和复杂匹配,在这些复杂匹配中,一个本体中的类被对应到由另一个本体中的类和属性构成的语义表达式。我们在OAEI2016中的大型生物医学本体数据集上进行实验,验证了方法的有效性。  与OAEI2016中的其他本体匹配系统相比,FCA-Map以数学模型为基础,不仅性能可以与排名前列的本体匹配系统相媲美,还获得了其他系统得不到的结果,表明了FCA-Map多层形式化概念建模方法的有效性。与已有的基于FCA的本体匹配方法相比,FCA-Map更全面地将FCA理论用于解决本体匹配问题,从多个层面递增式地构建形式背景,通过构建概念格来对不同本体间实体的相似性进行聚类,逐步获得、验证与完善匹配结果,除了一对一类匹配,FCA-Map还获得了类之间的复杂匹配以及对象属性匹配。
其他文献
遗传算法是一类借鉴生物界自然选择和自然遗传机制的随机化搜索算法,其应用优势在于处理传统搜索方法难以解决的复杂和非线性问题,该论文研究内容包括三个方面:小生境遗传算
本文讨论UFLP的局部搜索近似算法及其在实际计算中表现出的新性质.Vijay Arya等的分析方法得到该问题局部搜索算法的近似性能比为3.本文首先对局部搜索算法求解多服务中心设
数据在网络中的安全传输需要解决数据的保密性、完整性、身份鉴证与不可否认性.目前在网络上进行数据传输主要采用SSL协议和VPN技术.SSL中也采用了公钥机制、信息摘要和MAC检
针对目前已经提出的链路状态路由协议保护策略的弱点,该文提出了积极的防护策略——OSPF保护系统(OPS),该系统引入了入侵检测的技术来实现其防护机制.入侵检测技术是主动保护
学位
办公自动化是近年来发展比较快的信息技术之一.对中国办公自动化的研究不够深入已经严重的阻碍了中国办公自动化的发展.该文在分析中国办公自动化领域现状和存在问题的基础上
公共电话交换网(PSTN)是最广泛使用的通信线路,因此在PSTN线路上传输视频具有广阔的应用前景。本文详细讨论了基于PSTN的视频监控系统中采集子系统和显示子系统的设计与实现,并
基于CDMA技术的移动通信系统将支持语音,视频,数据等不同QoS要求的多类业务传输,如何设计有效的呼叫接入控制策略以保证各类业务的服务质量,同时最大限度地利用无线资源,支持尽可
云技术、物联网和基于二者的大数据技术的飞跃性发展正推动着教育领域发生前所未有的变革。大数据时代的教育创新,教育大数据挖掘及学习分析如今成为信息科学研究的最大热点之
本论文主要探讨有关视频数据信息安全的技术.它通过在原始视频数据中嵌入秘密信息—水印(watermark)来证实该视频数据的所有权,以此来抵制对数字视频作品的盗版.本论文取得了