论文部分内容阅读
近年来,统计机器翻译取得了很大的发展。基于短语的翻译模型和层次短语翻译模型被广泛用于机器翻译评测和在线翻译系统中,成为统计机器翻译的主流技术。同时,基于混淆网络的系统融合因为可以有效的提高翻译性能,被广泛用于机器翻译评测中。然而,它们都存在着一定的局限性:基于短语的模型缺少启发式规则来指导短语间的调序;层次短语模型对非终结符不加任何限制,不能针对具体情况进行区分;基于混淆网络(confusion network)的系统融合只允许单系统译文的词语之间进行一到一对齐,并不符合语言规律。
针对以上问题,本文重点研究了如何在基于短语的模型和层次短语模型中引入适当的句法信息来对原有模型进行增强,以及采用词图(lattice)来对系统融合进行改进。具体来说,本文的研究工作可以分为以下四个方面:
1.在从左到右解码的短语模型中引入BTG约束
短语模型可以获得很好的局部翻译,但是其对短语之间的调序不加任何限制,导致搜索空间巨大,再加上没有启发式规则来指导剪枝,导致剪枝带有一定的盲目性,会出现好的译文被剪掉的情况。引入括号转录语法(Bracketing Transduction Grammar,简称BTG)来约束短语之间的调序,可以将搜索限制在BTG空间内,使得剪枝只在合理的子空间内进行。本文提出一种移进归约算法来从左到右的引入BTG约束,保留了从左到右解码的优点。相对于原来的模型,加入BTG约束后,不仅取得了翻译性能上的提高,还取得翻译速度上的提高。
2.在层次短语模型中引入介词短语
层次短语模型既可以借助于短语来获取局部翻译,又可以借助于层次短语来处理短语之间的调序,但它没有对短语的句法成分进行区分,这可能会出现对不同的句法成分的处理相同的情况,导致短语的调序出错。而在不同的语言对中,介词短语的相对位置往往会有很大不同,所以介词短语的调序也最容易出错。本文在层次短语的基础上针对介词短语进行处理,先用条件随机场识别出介词短语,然后抽取一些包含介词短语的规则,构建一个包含介词短语的同步上下文无关文法(Synchronous Context FreeGrammar,简称为SCFG)。对于每个测试句子,在其对应的SCFG空间中进行搜索得到最终译文。相对于原来的模型,该模型取得了翻译性能上的提高。
3.在层次短语模型中引入浅层句法信息
本文提出了基于组块(chunk)的层次翻译模型将浅层句法信息引入到层次短语模型中。该模型可以结合层次短语模型和树到串模型的优点:既可以利用短语来捕捉局部翻译,又可以利用语言学信息来指导调序,同时还选择性的引入了句法黏着性。它首先利用条件随机场来进行浅层句法分析,获得组块序列,接着抽取由词语和组块组成的规则,并将连续的组块合并成一个非终结符。对于一个测试句子,该模型在其对应的基于组块的SCFG空间里,搜索最优的推导,同时得到译文。实验结果证明,相对于层次短语模型和树到串模型,该模型均取得翻译性能上的显著提高。
4.基于词图的系统融合模型
很多工作已经证明了系统融合可以获得优于单系统的翻译,现在广泛采用的是基于混淆网络的系统融合模型。该模型将所有单系统的译文集成在一个混淆网络中,通过搜索混淆网络来获得最佳译文。但是混淆网络只允许一到一对齐,这并不符合自然语言的实际情况,并且其对单系统译文的切分粒度过小,增加了产生不合理译文的可能性。本文提出了一种基于词图的系统融合模型,用词图来替换混淆网络,允许多到多对齐,更符合语言规律,而且对单系统译文切分的粒度为短语,减小了错误译文产生的可能性。该模型获得了优于基于混淆网络的系统融合模型的性能。