论文部分内容阅读
本体在智能信息集成、信息管理、自然语言处理等领域发挥着越来越重要的作用。目前本体的构造大多基于人工方式,需要大量的时间和费用,已不能满足本体应用的需要。因而本体的自动构造已成为该领域的研究热点。本文主要研究自动构造本体的技术,提出了一种利用专业语料集合自动构造领域本体的方法。主要的工作及创新点包括以下几个方面:1)已有本体构造方法研究本文比较研究了目前常见的若干本体构造方法,分析了各种方法的特点,这些方法大都基于人工或半人工的方式;研究了自动构造本体所涉及的关键技术,包括术语抽取技术、概念学习技术、关系挖掘技术等。2)领域术语自动抽取术语抽取是本体构造的第一步。本文提出了以词语在专业语料库和背景语料库(平衡语料库)出现的概率对比作为特征的术语自动抽取方法,并采用对数似然比进行术语的领域相关度评分,取得了比较满意的效果。3)概念发现和关系挖掘本文将复杂网络中基于小世界模型的G-N算法成功地引入到了统计自然语言处理领域。在构建术语网络过程中,运用向量空间模型,将术语上下文共现信息结合知网语义相似度进行术语相似度计算,更准确的衡量了术语之间的相似性;在此基础上,运用G-N算法对术语网络进行聚类分析,发掘领域概念,并挖掘出概念及术语间的上下位关系。4)领域本体自动构造系统通过综合运用本文研究的方法,我们设计并实现了基于领域文本的本体自动构造原型系统,实验构造了计算机专业领域的本体结构。