汉语的自动词义区分研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:q398197371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言的语义分析是实现自然语言理解的必要手段,其中面向信息处理用的词义分析一直是自然语言处理的焦点和难点。传统语言学的词义研究主要关注词义的发展和演变。汉语词典关于词语的定义又多是描述解释性的,很难反映词语在真实语料中的词义情况,表现在词语定义粒度过细,缺少新义或者特定领域的词义,存在循环定义现象等等,使得现有的词典无法很好地应用于自然语言处理,成为词义消歧、词汇语义知识库建设等研究的瓶颈。因此,面向信息处理的自动词义区分成为了解决词义知识获取问题的重要研究课题。词义区分可以应用于词义知识库构建、词义消歧、信息检索、机器翻译等不同领域。   自动词义区分是通过对真实文本的处理,区分和表示词语词义的过程。自动的词义区分基于著名的分布假设,即词语的词义可以通过词语周围环境获知,利用完全无指导的机器学习方法,自动地从文本中区分出词语,特别是多义词的词义内容,确定词语有多少词义,以及将各个词义以某种形式表征出来。它与词义消歧的不同之处在于,它没有预先定义好的词义列表以及词义的个数。   词义区分从1998年被正式提出至今,主要研究集中在英语和一些欧洲语言上,汉语方面的研究很少,应用方面还是空白。并且目前还没有一个同时包含词义区分方法和词义知识表示的完整论述。针对这样的研究现状,本项研究面向中文信息处理,对汉语的词义区分的理论和方法进行了完整的研究和探讨,取得如下主要的包含创造性的研究成果:   (1)作为目前首个关于词义区分方法和词义知识表示的完整论述,本文重新定义了“词义区分”概念,总结并归纳三种词义表示方法以及三种对应的访J义区分方法,即基于词聚类的词义区分、基于上下文分组的词义区分和基于搭配的词义区分。   (2)研究并设计实现了汉语的基于词聚类的词义区分算法和基于搭配的词义区分算法,弥补了这方面研究的空缺。针对词义区分评价难的问题,对不同的词义区分算法设计了多方面、多层次的评价方法。例如在基于词聚类的词义区分研究中,提出分别从词聚类和词义区分两方面对结果进行自动评价。在比较不同方法的结果时,除了需要关注对应率、覆盖率等具体指标外,还需要关注不同方法结果的内容交叉情况;在基于搭配的词义区分研究中,提出通过人工相关性评价方法更好地完成评价工作;在词义知识库构建的具体应用中,在缺乏标准答案的情况下,提出利用词义个数分布曲线和词义优选序列来评价最后的结果。这些方法都能较为客观地反映词义区分的实际效果,很好地为词义区分研究服务。   (3)目前汉语词义区分的研究都集中在名词和动词上,还没有形容词方面的相关研究。本文特别针对汉语形容词提出了新的词义区分方法。特别是在基于词聚类的词义区分研究中,选择了易于获取并能体现汉语形容词语义信息的知识,初始化EM聚类算法的参数以提高其性能。通过引入HowNet进一步优化了词形特征的选择,使实验结果得到了进一步的提升。   (4)针对现有搭配词典的词义划分标准不明、典型搭配不典型、数量少、更新慢等问题,本文将搭配研究和词义区分研究有机结合,利用词语的搭配特征区分词语的词义,同时获取可区分词义的搭配知识。并且本文还提出了新的搭配描述框架。该方法的人工评测结果表明,自动获取的搭配具有明显的词义区分能力,可以为构建大规模搭配知识库奠定基础。   (5)设计并实现了词义区分在双语词汇语义知识库CCD建设中的应用。针对CCD词义定义不确切的问题,使用基于词聚类的词义区分方法实现汉语名词和形容词的词义区分,然后通过词集之间的相互映射,修改CCD现有的词语定义。本文还优化了CCD中形容词概念相似度的计算方法,更好地满足了应用需要。通过评价,实验结果符合汉语的实际情况,并且与人工专家的修改意见基本一致。   作者通过在汉语词义区分领域中理论、技术、应用等多方面的研究与实践,为汉语的词义区分研究开拓了新的技术和方法,也为其他语言的词义区分研究提供了研究和应用上的新思路。
其他文献
近年来,互联网的迅速普及带动了信息技术的飞速发展,信息技术对人们的生活产生了巨大的影响。在这种环境下,政府和企业都在加快信息化建设的步伐,构建基于Web的电子政务、电
学位
本论文主要介绍了基于DSP的自适应智能型积分器和交替式积分器的设计。作者通过对传统模拟积分器电路及数字信号处理等方面的深入调研,给出了实际积分电路的理论计算和误差分
在血液常规检查中,血球分析仪是医学临床检验最常用的仪器,为疾病的诊断提供重要的依据。随着微电子技术和超大规模集成电路的高速发展,基于嵌入式技术的血球分析仪系统在功
定位同步系统为综合检测列车上的各检测系统提供统一的距离采样控制基准及统一的时间、速度和里程标签,并通过实时的里程同步和距离脉冲通道发布,使处于整列车不同断面位置的检
随着医院信息系统的普及,医院数据库规模不断扩大,数据复杂程度日益增加。如何从现行医院信息系统大量的业务数据中抽取有用的知识,以辅助企业决策层进行管理决策,是企业的愿
学位
自1972年Parke研究人脸动画开始以来,国内外研究工作者使用各种方法合成人脸动画,诸如基于参数控制方法,基于数据驱动方法等等。人脸动画的合成具有广泛的实用价值,用于游戏、娱
在遥感数据的获取、处理、分析、数据转换等各种操作中,都会引入不同类型和不同程度的不确定性,并在随后的各种处理过程中传播,最终的不确定性则是各种不确定性不断积累的结果。随着遥感分类数据被广泛地作为GIS中研究土地覆盖和利用情况以及GIS中各种模型的重要数据源,研究遥感影像分类过程中的不确定性具有十分重要的意义。粗糙集理论是一种处理不确定性的数学工具,作为一种新兴的归纳学习方法,以其“不需对数据的任何
个性化、实时化、高效化构建三维人体模型已经成为虚拟人体建模的发展趋势,有着重要的研究价值和广泛的应用前景。三维人体虚拟人体的个性化建模、降低三维人体建模的构造成本
消息中间件(Message Oriented Middleware,MOM)是目前中间件技术的发展热点。它利用高效可靠的消息传递机制来进行平台无关的数据交流,并基于数据通信来实现分布式系统的集成。
互联网飞速发展,已经渗透到人们日常生活的方方面面,互联网所容纳的数据量不断增长,人们面对海量数据的时候对数据的检索提出了更高的要求,期待可以用更少的时间找到自己感兴趣的