论文部分内容阅读
基于短语的翻译模型以短语作为翻译单元,是当前统计机器翻译的主流技术。近年来,基于句法的翻译模型将句法信息引入翻译,以句法结构作为翻译单元,已成为研究热点。
无论哪种翻译模型,译文选择都是关系翻译质量的关键问题。译文选择是指根据从平行语料库中获取的翻译知识,为源语言翻译单元选择合适的目标语言翻译单元。译文选择不仅影响词语翻译,也影响词语调序。因此,译文选择的准确性直接关系到翻译的忠实度和流利度。
本文重点研究了基于短语的模型和基于句法的模型中短语及结构的译文选择问题,取得了以下研究成果:
1.基于相似度的短语选择
短语对于基于短语的模型而言至关重要,因为短语能够减少词语歧义、进行局部词语调序。提出了一种基于相似度的短语选择方法。该方法通过计算源语言短语的相似度,使用部分匹配策略选择双语短语,为集外短语构造翻译,缓解了原来完全匹配策略导致的数据稀疏问题。实验表明,基于该方法的翻译系统“Mencius”的翻译质量超过了目前国际上主流的基于短语的翻译系统“Moses”。
2.层次短语模型中的规则选择
层次短语(Hierarchical Phrase-Based,简称为HPB)模型是基于形式化语法的翻译模型的典型代表。层次短语规则包含结构信息,对于短语调序具有重要作用。针对HPB模型在规则选择时缺乏上下文信息的问题,提出了最大熵规则选择(Maximum Entropy based Rule Selection,简称为MERS)模型。MERS模型将规则选择问题转化为多类分类问题,使用规则外部上下文信息和规则内部变量所代表的短语信息作为特征构建最大熵分类器,具有良好的可扩展性。实验表明,MERS模型能够显著地提高目前国际上性能最好的基于形式化语法的翻译系统Hiero的翻译质量。
3.树到串对齐模板模型中的规则选择
树到串对齐模板(Tree-to-string Alignment Template,简称为TAT)模型是基于语言学语法的翻译模型的典型代表。该模型使用了源语言端丰富的句法结构信息指导翻译。针对其在规则选择时缺乏上下文信息的问题,提出了融合丰富句法知识的MERS模型。在特征定义时,充分使用了丰富的句法树特征。实验表明,MERS模型能够显著地提高目前国际上著名的基于语言学语法的翻译系统Lynx的翻译质量。