基于形式化句法的统计机器翻译若干问题研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:sprock
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
形式句法翻译(Formally Syntax-based Machine Translation)模型是基于句法的统计机器翻译模型的一个重要分支。与其它模型相比,该类模型使用同步的形式语法来生成译文,模型具有语法简单,双语表达能力强的优点,近年来成为了统计机器翻译研究的热点之一。   本文对形式句法翻译模型的典型代表——括号转录语法(Bracketing Transduction Grammar,简称BTG)模型和层次短语(Hierarchical Phrase-based,简称HPB)模型进行深入分析,重点研究了规则抽取,规则概率估计,调序概率估计和句法信息在翻译模型中的使用等问题,取得了以下研究成果:   1.考虑短语搭配和功能词的层次短语约束抽取方法HPB模型通过泛化子短语来抽取泛化规则。传统的抽取方法认为所有满足对齐一致性的子短语均可以泛化,抽取出大量的泛化规则,这给翻译模型的实用化带来了困难。本文提出了两种约束抽取策略:识别短语搭配,在识别原始短语对和抽取泛化规则的过程中,把短语搭配当作一个整体语言单位;识别功能词,不对完全由功能词组成的子短语进行泛化。实验表明,本文的约束抽取方法能够在保证翻译质量基本不变的情况下,大量减少冗余泛化规则的产生。   2.不受对齐一致性约束的形式句法翻译模型规则概率估计方法BTG模型和HPB模型都采用最大似然估计(Maximum Likelihood Estimation,简称MLE)的方法来估计规则概率。传统估计方法受对齐一致性约束,忽视了语料库中大量不存在满足对齐一致性译文的单语规则,因而规则概率的估计不够准确。本文对传统方法进行改进,在估计规则概率时,考虑了单语规则的所有出现情况。实验表明,本文的方法能够使得翻译模型估计得到更合理的规则概率,提高翻译质量。   3.基于调序图的括号转录语法模型调序概率估计方法最大熵括号转录(Maximum Entropy Based Bracketing Transduction Grammar,简称MEBTG)模型的调序模型是一个词汇化调序模型。该模型在估计调序概率时,只考虑当前短语是否存在某种调序关系的相邻短语,而没有考虑相邻短语数量对调序概率估计的影响。本文提出了一种基于调序图的调序概率估计方法。该方法抽取所有双语短语,按照目标顺序构造调序图;然后在调序图上估计调序实例权重并抽取调序实例。实验表明,本文的方法能显著地改善MEBTG模型的翻译质量。   4.基于目标依存的括号转录语法翻译模型BTG规则只描述译文的调序生成,而没有描述译文句法结构的生成,因此翻译模型无法利用目标句法信息来改进翻译质量。本文提出了一种基于目标依存的括号转录语法翻译模型(Target dependency-based Bracketing Transduction Grammar,简称TDBTG)。新模型首先扩展传统的BTG规则,使得新规则能够描述译文依存结构的调序和连接操作,然后采用两个最大熵分类器来为译文依存结构的调序和连接分别进行建模,最后模型通过依存语言模型来捕捉译文依存信息以提高翻译质量。实验表明,TDBTG具有比MEBTG更好的翻译性能。  
其他文献
随着现代信息技术的发展和信息化程度的不断提高,各种日益庞大和复杂的信息系统,在社会生活的各个方面都得到了广泛的应用,系统的安全形势也日益严峻,应用系统的每个环节都有
水利和水电工程是非常复杂的系统工程,在工程的施工和设计过程中,经常受到一些内在因素和外在因素的影响,使得在工程设计、项目施工以及组织管理方面的任务繁重,而且常常伴有
随着移动数字设备和传感器的广泛使用,普适计算在人们的生活中起着越来越重要的作用。为了实现普适计算的随时随地提供服务能力的愿景,部署在普适计算环境下的软件系统需要利
生物特征识别技术是一种重要的身份鉴别方法,已经逐渐成为国内外的一个研究热点和各国竞相发展的重点战略技术。作为一种新兴的生物特征识别技术,眉毛识别的研究处于起步和发
近年来,虚拟化技术以其资源利用率高和隔离封装等特性得到了广泛应用。同时,研究主动防御的网络安全仿真技术,却因成本、对真实环境破坏性及检测系统可靠性等因素难以大规模应用
核方法是目前机器学习领域的研究热点之一,广泛用于模式识别、数据挖掘、信号处理、计算机视觉等多个领域。基于子空间的降维方法则是模式识别的一种主流方法。将两者结合的核
随着计算机应用的不断深入和计算机网络的普及,尤其是作为现代信息社会核心的因特网的开放性,国际性和自由性,使得人们对信息安全的要求越来越高。目前解决安全问题主要是通过系
随着信息技术和计算机互联网飞速发展,多媒体信号已成为人类获取信息的最主要载体,多媒体信号数字化产生的大量的数据对存储和传输都产生了巨大的压力。因此图像数据高效压缩
虚拟现实是当前的研究热点之一,在建筑设计、城市规划、古迹恢复、产品原型、娱乐、可视化仿真等多个领域有着广泛的应用。LOD(细节层次)技术在虚拟现实中的应用提高了系统的
虽然电子不停车收费ETC(Electronic Toll Collection)系统在公路收费方面应用发展很快,但是现有的ETC系统还存在标准不一、安全性不高等许多问题,尤其是现有的ETC数据通信嵌