论文部分内容阅读
语义Web系统的核心是本体。大家公认在语义Web领域本体和信息抽取(IE)的组合构成了一个知识处理循环:本体在合适的上下文为IE提供文本解释,使其更准确更有效,而IE可以提取新知识,与已有本体集成。近年来两者方方面面的研究工作已经投入了巨大的努力。然而,本体往往要改变,随时间而演进,本体演化既费时费力,又容易出错,依赖于用户的知识表示能力及其大量输入和判断,这在开放式环境中更是如此。例如,问题会存在于IE系统对信息项分布变化的适应性,本体变化及其副作用,本体版本之间的语义差异计算等。在综述本体演化和IE研究现状的基础上,本论文就是探讨这些问题在开放式环境中的解决办法。针对开放式环境中并行修改本体的特点,本文提出了开放式环境中本体变化分析与处理的基本框架。首先指出了本体变化序列间存在依赖、直接冲突、间接冲突以及相容四种关系类型;然后基于本体变化序列的冲突关系,将本体变更划分为三个阶段:在初始的本体变化序列集合中搜索所有相互冲突的本体变化序列集合,即冲突集;根据冲突集,将初始的本体变化序列集合划分为多个极大可顺序执行本体变化序列子集;根据本体变化序列的依赖关系,对于当前本体执行每个极大可顺序执行本体变化序列子集中的本体变化序列。最后通过两个具体的案例,诠释了这一方法的应用价值。针对当前本体版本差异检测算法执行效率低下的问题,本文提出一种基于概念格模型的本体版本差异检测算法。首先将本体版本映射为形式对象,本体的概念分类关系映射为形式属性,将本体版本空间表示为概念格模型。然后在概念格模型的支持下,针对有参差异检测和无参差异检测的具体问题提出相应的检测算法。在证明算法正确性的同时,也分析了算法高效的执行效率。针对IE领域中存在的“信息项缺失”、“信息项多属性值”以及“信息项无序”问题,本文提出一种基于本体的Web信息抽取方法。首先将Web文档解析为一棵扩展的DOM树,将信息项在扩展DOM树中的位置特征映射为层次抽取模型中的相关参数,然后使用归纳学习的方法来构造基于隐马尔可夫模型的层次抽取模型,并在本体的指导下进一步修正层次抽取模型,最终实现Web信息抽取。实验结果证明了该方法可以获得更高的准确率。最后使用Java语言实现了一个面向交通运输领域的本体演化及信息抽取的原型系统。