论文部分内容阅读
随着计算机技术的迅速发展以及Internet的广泛应用,知识和信息在世界范围内实现了平等共享和快速传播,人们可以方便、快捷地从互联网络上获取信息;但网络信息的爆炸性增长,使得准确、快速地获取有价值信息的难度逐渐增加。人们面对的问题不是没有答案,而是答案太多。现有网页的信息表现形式多为自然语言、图片、视频等格式,这些十分适合人们阅读或收听的需求。但是这些媒介固有的不确定性导致了数据格式的多样性,所以不能被计算机理解。这在网络信息量剧增的时代,人们迫切需要计算机分担知识整理所带来的压力。
虽然互联网获得了极大的成功,但是它的结构存在严重的缺陷,采用HTML格式保存的信息,只是供人可读的,而不是机器可理解的,如何让机器理解呢?这正是语义网研究的重要内容,语义网是以一种可被计算机理解的方式米描述客观事物的智能网络。
本文对语义网中的本体进化进行了研究。首先介绍了语义网和本体的相关概念。其次对本体进化的关键技术进行了深入的分析和研究,并在此基础上设计了一个本体进化框架,使进化的自动化成为可能。在框架中着重引入了本体进化的需求生成阶段。通过对本体进化的需求分析,提出了一个进化需求的自动生成模型。在此模型中主要通过web页而抓取工具来抓取相关的领域文本,对领域文本进行预处理,消除噪声页面,然后对文本进行分词,获得候选概念,经过概念还原、筛选、简约、转换获得最终的关键概念。本文采用ATF*PDF算法实现了关键概念的筛选,并引入了叙词表把概念转换成规范化格式,并从理论上证明了这种方法的可行性。然后针对复合的进化需求,把需求分解成相应的原子变化,并给出了相应的进化策略,能够实现用户自定义的进化。最后根据上述研究内容设计了一个基于语义网的本体自动进化系统,对系统进行了实验评测、分析,并取得了良好的实验效果,证明了该系统能有效的实现本体进化。