论文部分内容阅读
自然语言的语义分析是实现自然语言理解的必要手段,其中面向信息处理用的词义分析一直是自然语言处理的焦点和难点。传统语言学的词义研究主要关注词义的发展和演变。汉语词典关于词语的定义又多是描述解释性的,很难反映词语在真实语料中的词义情况,表现在词语定义粒度过细,缺少新义或者特定领域的词义,存在循环定义现象等等,使得现有的词典无法很好地应用于自然语言处理,成为词义消歧、词汇语义知识库建设等研究的瓶颈。因此,面向信息处理的自动词义区分成为了解决词义知识获取问题的重要研究课题。词义区分可以应用于词义知识库构建、词义消歧、信息检索、机器翻译等不同领域。
自动词义区分是通过对真实文本的处理,区分和表示词语词义的过程。自动的词义区分基于著名的分布假设,即词语的词义可以通过词语周围环境获知,利用完全无指导的机器学习方法,自动地从文本中区分出词语,特别是多义词的词义内容,确定词语有多少词义,以及将各个词义以某种形式表征出来。它与词义消歧的不同之处在于,它没有预先定义好的词义列表以及词义的个数。
词义区分从1998年被正式提出至今,主要研究集中在英语和一些欧洲语言上,汉语方面的研究很少,应用方面还是空白。并且目前还没有一个同时包含词义区分方法和词义知识表示的完整论述。针对这样的研究现状,本项研究面向中文信息处理,对汉语的词义区分的理论和方法进行了完整的研究和探讨,取得如下主要的包含创造性的研究成果:
(1)作为目前首个关于词义区分方法和词义知识表示的完整论述,本文重新定义了“词义区分”概念,总结并归纳三种词义表示方法以及三种对应的访J义区分方法,即基于词聚类的词义区分、基于上下文分组的词义区分和基于搭配的词义区分。
(2)研究并设计实现了汉语的基于词聚类的词义区分算法和基于搭配的词义区分算法,弥补了这方面研究的空缺。针对词义区分评价难的问题,对不同的词义区分算法设计了多方面、多层次的评价方法。例如在基于词聚类的词义区分研究中,提出分别从词聚类和词义区分两方面对结果进行自动评价。在比较不同方法的结果时,除了需要关注对应率、覆盖率等具体指标外,还需要关注不同方法结果的内容交叉情况;在基于搭配的词义区分研究中,提出通过人工相关性评价方法更好地完成评价工作;在词义知识库构建的具体应用中,在缺乏标准答案的情况下,提出利用词义个数分布曲线和词义优选序列来评价最后的结果。这些方法都能较为客观地反映词义区分的实际效果,很好地为词义区分研究服务。
(3)目前汉语词义区分的研究都集中在名词和动词上,还没有形容词方面的相关研究。本文特别针对汉语形容词提出了新的词义区分方法。特别是在基于词聚类的词义区分研究中,选择了易于获取并能体现汉语形容词语义信息的知识,初始化EM聚类算法的参数以提高其性能。通过引入HowNet进一步优化了词形特征的选择,使实验结果得到了进一步的提升。
(4)针对现有搭配词典的词义划分标准不明、典型搭配不典型、数量少、更新慢等问题,本文将搭配研究和词义区分研究有机结合,利用词语的搭配特征区分词语的词义,同时获取可区分词义的搭配知识。并且本文还提出了新的搭配描述框架。该方法的人工评测结果表明,自动获取的搭配具有明显的词义区分能力,可以为构建大规模搭配知识库奠定基础。
(5)设计并实现了词义区分在双语词汇语义知识库CCD建设中的应用。针对CCD词义定义不确切的问题,使用基于词聚类的词义区分方法实现汉语名词和形容词的词义区分,然后通过词集之间的相互映射,修改CCD现有的词语定义。本文还优化了CCD中形容词概念相似度的计算方法,更好地满足了应用需要。通过评价,实验结果符合汉语的实际情况,并且与人工专家的修改意见基本一致。
作者通过在汉语词义区分领域中理论、技术、应用等多方面的研究与实践,为汉语的词义区分研究开拓了新的技术和方法,也为其他语言的词义区分研究提供了研究和应用上的新思路。