论文部分内容阅读
形式句法翻译(Formally Syntax-based Machine Translation)模型是基于句法的统计机器翻译模型的一个重要分支。与其它模型相比,该类模型使用同步的形式语法来生成译文,模型具有语法简单,双语表达能力强的优点,近年来成为了统计机器翻译研究的热点之一。
本文对形式句法翻译模型的典型代表——括号转录语法(Bracketing Transduction Grammar,简称BTG)模型和层次短语(Hierarchical Phrase-based,简称HPB)模型进行深入分析,重点研究了规则抽取,规则概率估计,调序概率估计和句法信息在翻译模型中的使用等问题,取得了以下研究成果:
1.考虑短语搭配和功能词的层次短语约束抽取方法HPB模型通过泛化子短语来抽取泛化规则。传统的抽取方法认为所有满足对齐一致性的子短语均可以泛化,抽取出大量的泛化规则,这给翻译模型的实用化带来了困难。本文提出了两种约束抽取策略:识别短语搭配,在识别原始短语对和抽取泛化规则的过程中,把短语搭配当作一个整体语言单位;识别功能词,不对完全由功能词组成的子短语进行泛化。实验表明,本文的约束抽取方法能够在保证翻译质量基本不变的情况下,大量减少冗余泛化规则的产生。
2.不受对齐一致性约束的形式句法翻译模型规则概率估计方法BTG模型和HPB模型都采用最大似然估计(Maximum Likelihood Estimation,简称MLE)的方法来估计规则概率。传统估计方法受对齐一致性约束,忽视了语料库中大量不存在满足对齐一致性译文的单语规则,因而规则概率的估计不够准确。本文对传统方法进行改进,在估计规则概率时,考虑了单语规则的所有出现情况。实验表明,本文的方法能够使得翻译模型估计得到更合理的规则概率,提高翻译质量。
3.基于调序图的括号转录语法模型调序概率估计方法最大熵括号转录(Maximum Entropy Based Bracketing Transduction Grammar,简称MEBTG)模型的调序模型是一个词汇化调序模型。该模型在估计调序概率时,只考虑当前短语是否存在某种调序关系的相邻短语,而没有考虑相邻短语数量对调序概率估计的影响。本文提出了一种基于调序图的调序概率估计方法。该方法抽取所有双语短语,按照目标顺序构造调序图;然后在调序图上估计调序实例权重并抽取调序实例。实验表明,本文的方法能显著地改善MEBTG模型的翻译质量。
4.基于目标依存的括号转录语法翻译模型BTG规则只描述译文的调序生成,而没有描述译文句法结构的生成,因此翻译模型无法利用目标句法信息来改进翻译质量。本文提出了一种基于目标依存的括号转录语法翻译模型(Target dependency-based Bracketing Transduction Grammar,简称TDBTG)。新模型首先扩展传统的BTG规则,使得新规则能够描述译文依存结构的调序和连接操作,然后采用两个最大熵分类器来为译文依存结构的调序和连接分别进行建模,最后模型通过依存语言模型来捕捉译文依存信息以提高翻译质量。实验表明,TDBTG具有比MEBTG更好的翻译性能。