基于语料自动获取的维汉译文消歧关键问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xieqi_1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新疆是一个多民族的聚居地,少数民族尤其是维吾尔族在新疆人口中占有很大的比例。在信息互相交融的今天,各民族之间的文化交流日益频繁,如何借助先进的信息技术完成机器翻译、跨语言知识检索等任务已成为人们迫切的需求。目前对这些研究仍然存在着许多的难题,其中一个关键问题是源语言中的多义词在翻译过程中如何正确选择目标语中词汇的问题,称之为译文消歧。维汉译文消歧研究作为一个“中间任务”直接关系到维汉机器翻译、维汉跨语言问答等语言处理应用系统的效率和成败,是计算语言学中一个关键性的基础研究课题。   综合分析译文消歧和词义消歧研究过程出现的各种问题。本文认为维汉译文消歧研究的关键问题是消歧资源建设和消歧方法研究。在消歧资源建设方面,本文主要进行了维吾尔语多义词对应的汉语译文标注库的自动构建研究。针对自动获取的译文标注库精度不高的缺点,提出了多种方法用于过滤语料,提高了译文标注库的实际使用价值。在消歧方法方面,根据维吾尔语的特点,研究融合多特征的词义消歧方法,为维吾尔语译文消歧的研究打下了基础。本文具体研究内容包括以下几个方面:   1.为了解决维汉译文消歧研究中消歧资源短缺的问题,提出了一种利用维吾尔语多义词各词义对应的汉语译文自动获取译文标注语料库的方法,在此基础上基于改进的HMM模型建立了维汉译文消歧框架,实现了在自动获取的标注语料上维汉译文的消歧。   2.为了进一步扩大译文标注语料库的规模,提出了利用目标词的等价同义词自动获取标注语料的方法。为了提高自动获取标注语料的质量,分别从等价同义词和句子两个层面对语料进行过滤。在等价同义词的筛选方面,提出一种多策略结合的词语相似度算法,既使用已有的知网资源,从中获取词语之间直接的相互联系,也使用统计信息,将词语相关性的因素引入词语相似性的计算中,从目标词的同义词中筛选出相似度最高的词作为等价同义词。在句子筛选方面,对利用等价同义词获取的实例句子,通过目标词的上下文与所获实例的上下文共现频率来过滤噪音实例。通过两种方法的过滤,极大的提高了自动获取语料的质量。   3.针对维汉译文消歧的需要,进行了维吾尔语词义消歧研究,基于最大熵模型建立了融合维吾尔语特点的词义消歧模型,结合多种模型的方式来提高消歧结果的准确率,在训练语料规模不变的情况下,有效的提高了词义消歧的准确率。  
其他文献
21世纪随着互联网技术的快速发展,从而推动和加快了新型教育模式的出现。《十年规划》描述了我国教育信息化未来十年的任务和行动计划,这些任务和行动计划的重点工程被概括为“
物质流分析(Material Flow Analysis,MFA)作为一种研究经济活动中物质资源新陈代谢过程的方法,在促进循环经济结构发展的同时,也对资源和环境保护起到积极的意义,在世界范围内有
在中国,有数以亿计的农民进入城市或沿海地区打工,以赚取更多的物质回报来为家庭带来更好的生活。由于打工地的住宿限制,大部分农民工的孩子留在了农村家里,由爷爷奶奶或者其他亲
从计算机软硬件开发的角度上看,如何确保计算机软件与硬件的正确性、可靠性和安全性是科学家们奋斗的终极目标。形式化方法用抽象的模型描绘所研究的系统、用逻辑公式描述所关
单点登录使得用户只需认证一次,即可访问多个关联的应用系统,在提高工作效率、降低系统管理开销、保证安全性等方面发挥的作用已经得到了广泛的认可。随着信息化进程的推进,企业
软件复杂度的增加及多核体系结构的广泛应用,使得通过传统模式检查软件正确与否变得愈加困难。本论文研究了并发程序自动分析与验证的相关理论、技术及工具。本文的工作主要关
复合式火灾探测报警控制系统将业已成熟的感温、感烟等探测技术有机地融为一体,是当今世界范围内火灾探测报警技术领域最受人瞩目的研究方向之一.该论文通过对复合式火灾探测
近年来汽车数量迅速增加,带给人们生活便利的同时,也带来了交通拥堵、环境污染等负面问题。VANET作为智能交通系统的重要组成部分,吸引了许多研究者的目光。由于VANET较高的节点
随着大规模Web应用和极限事务处理需求的不断增长,传统的关系型数据库越来越不能满足人们的需求。因为兼具内存数据库和NoSQL数据库的优点,内存数据网格(In-memory Data Grid)
随着无线互联网技术的发展和移动设备的普及,人们对位置的需求越来越强烈。GPS技术解决了室外定位的问题,却很难应用于室内环境。业界一直没有形成普适的定位方案,室内定位问题