论文部分内容阅读
近十年来,统计机器翻译取得了很大的成功.基于短语的翻译模型超越了最初的基于词的翻译模型,在近期的机器翻译评测中屡次取得领先成绩,成为统计机器翻译的主流技术.然而,基于短语的模型的一大缺点是难以处理短语间的重排序.因此,能将句法信息引入翻译的基于句法的翻译模型成为当前的研究热点.
本文重点研究了统计机器翻译中的两个关键问题:词语对齐和翻译模型.
词语对齐对统计机器翻译而言至关重要,因为经过词语对齐的语料是极有价值的翻译知识源.本文为词语对齐提出对数线性模型框架.在此框架下,所有的知识源被视作依赖于源语言句子、目标语言句子以及可能的其他变量的特征函数.对数线性模型使统计对齐模型易于扩展,方便加入更多的语言学信息,从而能同时处理与具体语言相关和不相关的语言现象.本文讨论了框架的形式化定义、特征函数、最小错误率训练、搜索算法以及n.best列表生成等问题.我们在三个词语对齐评测的数据集(包含五个语言对)上对词语对齐的对数线性模型进行评价.实验表明,对数线性模型超过了绝大多数参加评测的系统.
翻译模型设计是统计机器翻译的核心问题.本文提出三个基于句法的树到串翻译模型:
1.嵌入句法树的基于短语的翻译模型,简称模型1.此模型在传统的基于短语的模型的基础上以隐变量的方式嵌入句法树,从而可以利用句法信息指导短语的划分、重排序和翻译.模型 1 只使用句法双语短语,搜索空间比传统模型小.我们的主要创新点是提出了树节点重排序,实现了利用句法信息指导短语重排序.
2.基于树到串对齐模板的翻译模型,简称模型2.此模型在模型 1 的基础上提出了树到串对齐模板.树到串对齐模板描述了源语言句法树和目标语言串之间的对齐关系.它既能生成终结符又能生成非终结符,既能执行局部的重排序又能执行全局的重排序.
3.融入森林到串规则的树到串翻译模型,简称模型3.此模型对模型2进行扩充,引入森林到串翻译规则,通过描述森林和串之间的对齐关系来捕获非句法短语,使表达能力得到进一步提升.为了将森林到串翻译规则融入到树到串翻译模型中,我们引入辅助规则来提供泛化层.
我们将这三个基于句法的翻译模型与国际学术界最常用的基于短语的翻译系统Pharaoh做对比.在2005年NIST汉译英机器翻译评测测试集上,模型1的翻译性能接近基准系统,模型2和模型3均明显超过了基准系统.