一种基于领域本体的领域新词归类技术及其实验分析

来源 :北京大学 | 被引量 : 0次 | 上传用户:lionpb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,随着语义网的发展,本体越来越多地在各个领域被应用,使得本体演化开始受到越来越多的研究者重视。为本体提供一种有效的演化方法,使它能够及时地得到更新以适应各种变化成为本体工程研究领域和语义网研究领域的重要问题。不同的本体演化研究有着不同的侧重点,主要有两类:本体知识更新和保持本体演化后的语义一致性。今天Web拥有的信息能够及时而全面地反映领域知识和领域知识变化,这无疑使它成为本体演化的理想驱动源。同时,Web信息的海量性使得本体演化所需要的新知识在其上呈现了许多统计特征,为发现本体演化的证据提供了有效途径。这些统计信息做为辅助决策的事物,为本体工程师判断如何演化本体提供了支持。 基于这种观察,本文提出了领域新词归类的研究目标。领域新词归类,就是将已知的领域新词归入本体中已有的某个概念,从而为领域工程师合理依据领域新词来更新本体提供线索和推荐。从这个研究目标来看,本文的研究属于本体演化的范畴,且主要侧重于辅助本体知识更新。具体的,领域新词被分为两种情况:代表本体中已有概念名的同义词和代表本体中已有概念的实例。根据这两种情况,本文提出的方法分别计算领域新词与概念的同义性分值和做为概念实例与概念的相似度分值。依据这两个分值,做出领域新词归类的判断。本文中的领域新词归类实现同时依赖于本体中的语义信息和Web上的统计信息,并有效地将两者结合起来。领域新词归类对本体中语义信息的利用并不是完全的,而是使用了其中部分的语义信息。所以,在本文的研究中,提出了一个语义模型。该模型基于领域本体,但只涵盖了本体中部分的语义信息。语义模型中的这些信息就是应用所需要的所有语义信息。除了本体提供的语义信息,领域新词归类同时还依赖于Web上的统计信息。Web上的统计信息主要借助信息检索和机器学习领域的查询扩展(Query Expansion)以及利用通用搜索引擎近似估计词汇在Web海量数据上的共现情况来获得。 在论文的后面,通过一个实际应用一手机领域的应用,对本文所提出的方法进行了验证。首先构建了一个手机领域本体,它包含了手机领域的基本概念、关系。并且,还添加了一些必要的实例。因为在本文的应用中,实例数据为之后的领域新词归类提供了支持。然后以此本体为基础得到一个简化的语义模型,并使用本文提出的方法对挑选出的具有代表性的领域新词进行实验。通过对实验结果的评测和分析,可以看出此方法对手机领域新词做为概念名和实例名的情况下进行归类具有显著的有效性。
其他文献
目前客户关系管理系统(以下简称CRM系统)已经在企业界获得了广泛的应用和认同。但是,现有的传统型CRM系统也存在一些问题:需要企业在运行环境的软件硬件购置、应用开发和实施、
学位
RIA(Rich Internet Application)应用发展到今天,已经出现了若干技术。但每种技术都有其优缺点,而且随着其他新技术和新概念的涌现,RIA也要不断的向前发展。XML(Extensible Mark
学位
全过程计算机辅助动画自动生成技术由中科院陆汝钤院士于上世纪90年代提出,该技术是将故事以受限语言的方式输入计算机,并在计算机的辅助下完成从开始到动画最终生成的每一步
研究问题解决方法,并将其引入语义Web服务组装,不仅有利于扩展问题解决方法的应用范围,也能够为语义Web服务组装提供一种新的思路。本文对问题解决方法进行分析和研究,并设计实现
随着Web服务的广泛应用和发展,为Web服务提供二进制数据传输能力、并提供安全保障能力是Web服务在商业应用中获得成功的关键因素。SOAP消息附件是当前Web服务传输二进制数据的
学位
网络入侵检测系统作为网络安全中一项重要的动态安全技术,用来检测网络系统中的恶意行为,进而发现系统的安全隐患并改善安全性,得到了越来越广泛的应用。但网络入侵检测系统本身
学位
随着近几年互联网与信息技术的快速发展,网络向用户提供的信息和应用越来越多,在人们享受着网络所带来方便的同时信息过载现象也变得日趋严重,如何从海量数据中获取满足人们
门户通过对信息的集成为用户提供了访问丰富信息资源的统一平台。随着门户的广泛使用,仅仅提供各种信息的访问入口已经不能满足使用需求,需要对门户中的信息进行有效的管理,以降
学位
访问控制是对信息系统资源进行保护的重要措施,本文对下一代的访问控制统一框架--使用控制(Usage Control,UCON)做了详细的介绍,同时提出UCON参数化应用思想并成功应用于实际系
随着互联网技术的成熟,以及浏览器客户端Web应用程序的普及,Web安全漏洞已经成为互联网最严重的安全隐患之一,其中跨站脚本(XSS)漏洞是近年来较为流行的一种漏洞。由于JavaSc