论文部分内容阅读
近年来,基于短语的统计机器翻译方法取得了快速进展,并获得了一定的应用。然而,该方法存在无法克服两种语言间的结构性差异,难以处理长距离短语重排序等本质问题。因此,研究如何融合源语言句法知识,建立更加鲁棒的高质量统计机器翻译模型,具有重要的理论意义和应用价值。
本论文针对在短语的翻译模型中如何融入更多深层次的句法知识以改善语言间的结构性差异,以及在语言学语法翻译模型中如何充分利用两端句法结构信息最大限度地解决语言间的结构性差异等问题,进行了深入研究。论文的主要工作和创新点归纳如下:
1、提出了适用于口语翻译的基于源语言句型的短语重排序方法
在挖掘与利用源语言句法知识方面,传统的句法分析技术很难适用于口语翻译。本文通过分析大量汉英口语翻译实例,观察到不同的句子类型具有不同的短语重排序特征。因此,本文提出了基于源语言句型的短语重排序方法。该方法以汉英翻译为例,首先利用基于支持向量机(SVM)的分类器将源语言句子划分为特殊疑问句、其他疑问句和非疑问句三种不同的句子类型。然后,针对不同的句子类型设计了不同的重排序模型。该方法改变了传统的重排序模型不考虑翻译句子的结构类型、一律按一种模式统一重排序的处理方法,有效减轻了汉英口语翻译中两种语言之间的结构性差异所造成的重排序困难。实验结果表明,基于源语言句型的短语重排序方法显著地改善了短语重排序性能,提高了基于短语的翻译系统的译文质量,并且可以与Moses中的词汇化短语重排序模型及基于最大熵的短语重排序模型等其他短语重排序模型实现互补。另外,基于源语言句型的短语重排序方法帮助本研究组在2008年和2009年连续两年取得国际口语翻译评测汉英任务第一名的优异成绩。
2、提出了有效融合源语言端句法规则的翻译框架
在融入传统句法知识改善短语重排序性能方面,一种非常流行的方法是设计源语言端的硬性规则或概率化规则对源语言句子进行重排序,以近似目标语言句子的语序。这种方法不仅十分依赖句法分析器的性能,容易在翻译前产生短语重排序错误,而且没有充分与解码器紧密结合,从而导致大量重排序错误无法在后续解码过程中得到纠正。针对这一问题,本文提出了一种有效融合源语言端句法调序规则的翻译框架。该框架的基本思想是:为了突出句法短语重排序的作用,并区别对待句法短语重排序与非句法短语重排序,将传统的短语重排序模型细分为句法短语重排序模型与非句法短语重排序模型。然后以括弧转录文法(BTG)的短语翻译模型为基础,将由源语言句法树中学到的硬性句法调序规则或概率化句法调序规则高效地融入句法短语重排序模型,以指导解码过程中的短语重排序。该框架突破了传统方法机械地利用源端句法规则调整源语言语序的做法,将句法规则作为一种特征巧妙地融合到翻译模型中。实验表明,该框架可显著地改善翻译性能,而且适用于大规模的实验环境。
3、提出了源语言端句法增强的串到树翻译模型
基于语言学语法的翻译模型直接利用语言学知识对翻译过程进行建模。实践证明,在基于两端句法的翻译模型中,要求对源端句法结构精确匹配的做法,并不能获得较高的译文质量。为了更加充分地利用两端的句法知识,本文提出了一种新的源语言端句法增强的串到树翻译模型(Souce-syntax augmented string-to-tree model,简称为SAS2T)。其基本思想是:对源端句法结构进行模糊匹配,而对目标端句法结构进行精确匹配。该模型在保证串到树翻译模型优势的基础上,利用模糊方法标注串到树规则的源端形成模糊树到精确树规则,并在解码中采用模糊方法进行规则匹配。实验表明,该模型明显优于基于形式化句法的层次短语翻译模型与串到树翻译模型。
4、在上述理论方法研究的基础上,分别实现了两个统计机器翻译系统
本文在有效融入源语言端句法规则的统计翻译框架的基础上,实现了翻译系统SynMEBTG,该系统在2009年全国机器翻译评测中取得了非常优异的成绩;另外,在SAS2T模型的基础上,建立了名为AppleTree的翻译系统。大量实验结果表明,AppleTree系统至少比串到树系统提高了0.5以上的BLEU值,比基于形式化句法的层次短语系统Joshua提高了1.5以上的BLEU值。