机器翻译中的词义消歧研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:godwin_z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于自然语言本身的灵活性以及人们对自然语言本质的认识还很肤浅,机器翻译(MachineTranslation),这个使用计算机实现文本从一种自然语言到另一种自然语言的转换处理,一直是计算机应用中一个难以很好解决的领域。为了能取得较好的翻译效果,从长期的机器翻译研究历史中发展出层次性的处理原则,即按照分词(汉语特有的)、词性标注、句法分析、词义标注、转化、生成等几个阶段,逐一进行,每一步的输出都是下一步的输入,同时,每一步都配合以一定的辅助资源,最终得到机器翻译的结果。 本篇论文首先总体介绍机器翻译研究领域的界定,接着逐一分析机器翻译的各个阶段出现的歧义问题,并对处理这些不同的歧义问题的消歧思想和算法进行研究,然后着重分析了词义分析和消歧阶段的算法和思想,并对每一算法的特点和优劣进行了深入的研究和比较,最后,提出了一种基于语料库的混合词义消歧策略,并对这种策略的提出的由来、可行性、系统的流程图、特点及继续研究下去的工作等,逐一进行了较为深入和详尽的分析。 本篇论文的主要工作如下: 1.提出了一种基于语料库的混合词义消歧策略,并对这种策略的由来、可行性、系统流程图、特点及继续研究的工作方向和内容作了较为详尽的分析和阐述。 2.针对基于实例和基于纯统计的两种不同的词义消歧策略,进行了相互比较和深入研究,在分析了每种策略的理论基础、具体做法的基础上,着重考察了这两种策略相互之间的差异性,由此得出了各种策略的适用场合,也为第一项工作,即混合策略的提出,打下了较为深厚的理论基础。 3.根据词义消歧阶段所具备的词汇资源的种类不同,按照有指导的、基于词典的和无指导的三个类别,分别进行词义消歧策略的归类研究,对每种策略的各种算法的由来、特点和具体做法和适宜的处理对象等,都进行了较为深入的比较和研究。 4.从机器翻译中可能出现的各类歧义的角度考虑,把机器翻译的过程看成是一个在不同的阶段进行不同的消歧处理的过程。这样,不仅对词义消歧这个领域进行深入的分析研究,而且对机器翻译中的其他歧义,如:分词歧义(汉语特有的)、词性歧义、句法歧义和转换歧义等,也都逐一进行了分析,并对各种相应的消歧算法进行较为系统的归类研究。 词义的消歧处理长期以来一直是机器翻译中的一个难点。同时,除了应用在机器翻译领域之外,词义消歧处理还广泛的应用于信息检索、文本分类等领域。这种基于语义理解和词义消歧基础上的信息检索和文本分类,具有更好的智能性和更高的准确性。应该说,词义消歧的研究在世界范围内已经做了很多,但相较与理想的词义消歧目标,还做的远远不够。由于词义歧义自身的特点,词义消歧处理的正确率一直不太理想,无法和词性标注等其他处理的正确率处于同一水平。
其他文献
该文在研读了大量相关文献的基础上,对数据挖掘和电子商务推荐系统的相关技术和发展状况进行了分析;并在学习上已见报道的相应推荐系统的技术实现的优缺点基础上,提出了我们
在面向Internet的Web计算环境下,传统的中间件技术面临着高并发度、分布式事务、中间件与遗留系统的集成等问题,由此,Web应用服务器应运而生,它为开发、部署、运行、集成、维护和
JDBC是Java程序访问数据库的接口标准,它通过提供一套标准的数据访问API,使Java应用程序能避免调用C代码访问数据库而带来的缺点。本文主要完成的是:研究与实现具有自主知识版权
对于分布式信息系统应用,可移动Agent提供了方便、有效、强壮、智能的模型.该文的研究目标主要是将移动Agent技术引入分布式信息系统中来,提出新的模型框架,包括它的通信模型
该系统设计中运用UML建立系统数据库,使系统数据库数符合UML规范,类之间的关系在系统数据库中得以反映,使系统模块和数据库使用相同的模式工作,最终解决面向对象概念和系统数
近年来移动互联网的快速发展促使智能手机的使用越来越普及,在地铁公车随处可以看到“低头族”们用智能手机玩游戏、聊天、阅读和购物,智能手机已经很大程度上改变了人们的生
该文作者根据多年几个大型办公自动化项目实际开发经验,分析计算机开发系统的应用模式,分析基于二层结构应用模式的办公系统模型以及该模型的优点和局限性.通过研究J2EE平台
本文主要讨论了应用于安全增强方式下的TCMAC模型的设计与实现。介绍了该模型在ORACLE上的实现以及经过安全增强后的数据库系统在Web方式下的应用。创新工作主要包括: ●提
由于现实世界是变化多端的,技术的发展也是日新月异,一个软件产品如何适应环境、需求的变化,日益成为人们关注的课题。 对于企业应用来说,在激烈的市场竞争中,业务过程要不断的
二十世纪七十年代,E.F.Codd提出了关系模型,由于其突出的优点,迅速被商用数据库系统所采用。八十年代开始,众多的方法学家都在尝试用不同的方法进行面向对象的分析与设计,到九十年