论文部分内容阅读
一词多义是自然语言的一个常见现象,人类基于已有的语言知识和词所处的语境为词进行消歧义。然而,计算机对于词的语义辨别却是一个比较困难的问题,首先,计算机需要得知完整的消歧知识,其次,计算机需要理解歧义词的不同歧义项的语义,根据词的上下文语境找到最匹配的歧义项。因此,词义消歧一直被作为计算语言学的一个重要研究课题,它是词层面上的语义分析,是其它自然语言处理任务的基础任务之一,是实现智能的自然语言处理系统的必备功能。 本文研究中文的词义消歧问题,提出一种协同词义消歧方法,它从百度百科知识库平台离线获取消歧知识并更新,采用语义图模型对一篇文档的多个歧义词进行协同消歧义,并采用文本深度表示模型计算歧义词的不同候选义项作为当前语境下实际义项的置信度,最终融合语义图模型的图排序结果和候选义项的置信度得出消歧结果。实验结果表明,该融合方法较融合之前的方法有较大的提升,在人工标注的新华社新闻稿件数据集上获得了82.8%的消歧准确率。 本文的主要工作点有以下三点: (1)设计基于候选义项置信度的消歧义方法,该方法首先从消歧知识确定文档中的歧义词,并获得歧义词的候选义项,采用文本深度表示方法和词类信息计算每个候选义项的置信度分数,将置信度分数最高的义项作为消歧结果。 (2)设计基于语义图模型的协同消歧义方法,该方法由消歧知识创建文档的语义图,使用PageRank计算每个结点的PR值,将每个歧义词的候选义项中PR值最高的义项作为消歧结果。 (3)设计语义图与置信度相融合的消歧义方法,将基于候选义项置信度的消歧义方法和基于语义图模型的协同消歧义方法进行动态融合,得出歧义词的最终消歧结果。 本文的语义图与置信度相融合的词义消歧方法最终应用于新华社知识库系统中,在一定程度上解决了新华社知识库系统的中文词条一词多义问题。