基于维基百科结构信息的语义关联度计算研究

来源 :东北大学 | 被引量 : 5次 | 上传用户：dingxiaoyun

【摘要】

：

随着WEB2.0的兴起与高速发展,产生了大量的WEB信息,并被广泛地传播。目前,人类产生的信息正在以指数的速度增长,为了更好地利用这些信息,人们希望能迅速地从计算机得到对自己

【作者】

：

孙琛琛

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2012年01期

【关键词】

：

语义关联度维基百科文章网络分类树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着WEB2.0的兴起与高速发展,产生了大量的WEB信息,并被广泛地传播。目前,人类产生的信息正在以指数的速度增长,为了更好地利用这些信息,人们希望能迅速地从计算机得到对自己有用的信息,希望计算机能自动地、更智能地挖掘信息,能更好地理解和处理自然语言。词语之间的语义关联度对于这些计算机应用至关重要。语义关联度计算作为基础性研究,在信息检索、拼写检测、文本分类、文本聚类、人工智能、自然语言处理相关的词义排歧、智能问答、自动摘要和机器翻译等研究领域发挥着重大的作用。对于机器来说,判断不同词语之间的语义关联度是一个复杂而艰难的任务,需要现实世界的有关实体的诸多概念及其关系、常识和某些特定领域的知识作为支撑。有些方法通过对大型语料库进行统计分析来实现语义关联度的计算；有些方法通过已有知识库如语义词典或分类系统来测量语义关联度。对于前者,无结构和不准确的语料库是难题；对于后者,范围和数量级的限制非常突出。维基百科是非常好的语义知识库,维基百科文章网络和分类树,是两个包含丰富的、明确的、具有一定结构的语义知识的网状结构。本文为了研究词语或短语之间的语义关联度计算问题,首先,将目标词语分别映射到维基概念(第三章将给出定义)；然后,通过计算维基百科概念间的语义关联度来得到目标词语之间的语义关联度。本文的主要研究内容和贡献如下：1)介绍了语义关联度计算的研究背景、现状和缺陷,介绍了语义关联度的概念和评价方法,并分析了现有语义关联度算法的特点。2)提出了基于维基百科文章网络和Jaccard系数的简单的语义关联度计算方法RelArtNetSimple;然后,引入权重概念,将链接和概念节点都赋予权值,并将概念节点层次地划分；最后,基于层次划分的、带权重的概念节点,提出基于文章网络的语义关联度算法RelArtNet。3)以信息论为理论基础,结合本体,提出了基于分类树本体信息内容的语义关联度算法和基于分类树本体的结构的语义关联度算法；综合前两种算法,进而提出了基于维基百科分类树的语义关联度算法RelCatTree。4)本文采用Spearman等级相关系数来衡量目标算法与人工识别的结果的相关程度,测试集采用语义关联度研究领域常用的三个数据集：Miller and Charles (1991)(含30对词语),Rubenstein and Goodenough’s (1965)(含65对词语)和WordSim-353datasets (Finkelstein et al.,2002)(含353对词语)。通过实验结果分析,证明本文提出的WSR算法具有良好的准确率和理想的复杂度。

其他文献

分布式防火墙与网络管理

该文利用网络管理技术,较为完美的解决了此问题,从而为分布式防火墙的广泛使用提供了基础.论文通过以下方法设计和实现了一种有效的分布式防火墙的管理方法.1、设计和实现了

学位

防火墙移动Agent网络管理

基于软件缺陷跟踪工具的质量控制活动管理及其实现

质量是产品的生命,软件质量同样也是软件产品的命脉.在当前中国软件产业蓬勃兴起,计算机应用日益普及的时期,强调软件质量,重视软件开发过程中的质量控制,有着尤为重要的现实

学位

软件质量质量控制质量控制活动

一种工作流异常处理模型研究

Internet/Intranet应用的普及和Web技术的发展,为Web工作流管理系统的实现提供了一个理想的平台,而基于Web的工作流管理服务为异地办公以及跨企业的合作提供了良好的基础。采

学位

工作流异常处理规则库

基于特征点和信道编码的双通道信息隐藏算法研究

该文以特征点和信道编码为基础,引入双通道通信概念,提出了抗几何变形攻击的信息隐藏体制.彩色图像的颜色空间(如RGB,YUV等)被划分为2个独立信道:一个信道称为主信道,嵌入主

学位

信息隐藏几何形变特征点Delaunay三角剖分信道编码鲁棒性

非定常流场拉格朗日拟序结构可视计算关键技术研究

学位

基于Web的智能在线求职系统

我们正在见证一场将改变二十一世纪的数字革命,这场革命由因特网、媒体、信息、通讯等相关技术(ICT:Information and Communication Technologies)所推动。这场革命将彻底转

学位

数据挖掘求职者招聘人员基于 WEB的系统决策数

嵌入式实时进程管理及其对实时数据库的支持

ARTs-OS是由华祥软件研究开发中心研制开发的一个嵌入式实时操作系统,进程管理模块是其中的关键所在,它的微型性、实时性、可预测性和可靠性是满足嵌入式实时数据库ARTs-EDB

学位

嵌入式实时操作系统嵌入式实时数据库实时进程模型实时线程调度任务接纳控制

元计算环境下Win32系统上MPI进程迁移机制及其实现

作者对Win32平台下的进程迁移作了深入的研究.通过把进程迁移技术和分布式快照技术引入到MPI系统中,实现了对没有图形用户界面的进程的迁移,并且实现了一个支持这种进程迁移

学位

MPIPVMMPICH集群计算元计算网格进程迁移检查点分布式快照机器状态通讯模式容错性

基于集群技术的网络作业管理系统的研究与实现

作业管理系统是建立在操作系统之上的一类中间件软件，目的在于强化操作系统的批处理功能，提供对作业的提交、调度、执行及控制等机制，从而能够更加有效地利用系统资源、平衡网络

学位

作业管理系统作业网络作业作业流通讯代理网络队列系统高可用性集群

COBOL2002跨平台集成开发环境的研究与实现

COBOL是Common Business-Oriented Language(公用面向商业的语言)的缩写，它产生于二十世纪六十年代。COBOL不断的演变并吸收计算机技术的进展，并在2002年产生了最新的2002标准

学位

COBOL集成开发环境WorkBench服务进程服务线程文件访问控制表源文件库调试器

基于维基百科结构信息的语义关联度计算研究

其他学术论文