基于知识库的词义协同消歧方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gaoyaoyang22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一词多义是自然语言的一个常见现象,人类基于已有的语言知识和词所处的语境为词进行消歧义。然而,计算机对于词的语义辨别却是一个比较困难的问题,首先,计算机需要得知完整的消歧知识,其次,计算机需要理解歧义词的不同歧义项的语义,根据词的上下文语境找到最匹配的歧义项。因此,词义消歧一直被作为计算语言学的一个重要研究课题,它是词层面上的语义分析,是其它自然语言处理任务的基础任务之一,是实现智能的自然语言处理系统的必备功能。  本文研究中文的词义消歧问题,提出一种协同词义消歧方法,它从百度百科知识库平台离线获取消歧知识并更新,采用语义图模型对一篇文档的多个歧义词进行协同消歧义,并采用文本深度表示模型计算歧义词的不同候选义项作为当前语境下实际义项的置信度,最终融合语义图模型的图排序结果和候选义项的置信度得出消歧结果。实验结果表明,该融合方法较融合之前的方法有较大的提升,在人工标注的新华社新闻稿件数据集上获得了82.8%的消歧准确率。  本文的主要工作点有以下三点:  (1)设计基于候选义项置信度的消歧义方法,该方法首先从消歧知识确定文档中的歧义词,并获得歧义词的候选义项,采用文本深度表示方法和词类信息计算每个候选义项的置信度分数,将置信度分数最高的义项作为消歧结果。  (2)设计基于语义图模型的协同消歧义方法,该方法由消歧知识创建文档的语义图,使用PageRank计算每个结点的PR值,将每个歧义词的候选义项中PR值最高的义项作为消歧结果。  (3)设计语义图与置信度相融合的消歧义方法,将基于候选义项置信度的消歧义方法和基于语义图模型的协同消歧义方法进行动态融合,得出歧义词的最终消歧结果。  本文的语义图与置信度相融合的词义消歧方法最终应用于新华社知识库系统中,在一定程度上解决了新华社知识库系统的中文词条一词多义问题。
其他文献
内存对象缓存系统在通信方面受制于传统以太网的低效率,在存储方面受限于服务器节点的内存容量,亟需融合新一代高性能IO技术提升性能。本文对以Memcached为代表的内存对象缓存
组块分析是属于句法分析的研究范畴,也叫做浅层句法分析,是自然语言处理中的关键的一环。组块分析采用“分而治之”的策略,对句子的组块进行识别。本文的目的是对汉语句子进行组
根据美国能源部的报告,预计E级超级计算机系统规模将达到十万节点,如何将如此众多的节点有效互连起来,以充分发挥整个系统蕴含的计算性能,成为互连网络亟待解决的问题。面对严峻
学位
近些年来,功能丰富的智能移动终端越来越普及,它的功能越来越多,功耗越来越大,续航时间越来越短。即使是千毫安时的锂离子电池也很难在用户连续正常使用情况下维持12小时。既然电
随着计算机运算速度和网络带宽的快速提高,通过互联网向用户交付硬件资源的云计算模式成为趋势。数据中心服务器的部署和管理是制约云计算模式发展的主要问题。系统虚拟机技术
该文详细论述了"红外光束可燃气体探测器"的探测原理,提出了系统的设计思想,并对系统关键技术所包括的硬件和软件设计作了详细的说明.在该文中,笔者还就系统的标定原理和方法
BitTorrent技术做为P2P技术中的佼佼者,将P2P的思想演绎的淋漓尽致,得到了极其广泛的应用和普及。当前的BitTorrent应用主要是电影、软件等大文件的上传下载,一般占用带宽时
近年来,复杂场景下视频监控系统中的多目标检测技术成为计算机视觉领域关注的热点研究方向。由于复杂场景下各种因素的影响,在对视频图像目标检测过程中会出现检测不全、过检