论文部分内容阅读
统计机器翻译是近年来自然语言处理领域最受瞩目的研究热点之一,具有重要的学术研究价值和广阔的应用前景。目前统计机器翻译已经经历了基于词的模型、基于短语的模型、基于句法的模型的演进过程。随着模型的不断升级,越来越多的语言学知识被挖掘出来,如何有效的利用和整合各类语言学知识来构建机器翻译系统成为亟待解决地问题,并成为统计机器翻译新的研究热点。 本文从利用丰富的语言学知识改进机器翻译的角度出发,系统地研究了一套判别式机器翻译方法。旨在利用判别式模型在优化目标定义和融合多源特征方面优势,将各类丰富的语言学知识以大规模判别式特征的形式融合起来,改进机器翻译。主要创新点如下: 1.基于感知机和强制解码的判别式机器翻译方法 本文首次将基于错误修正的感知机训练算法用于机器翻译,使大规模判别式训练在机器翻译上取得突破。从传统的少量特征、开发集调参,上升为大规模特征、训练集调参。该方法针对机器翻译使用非精确解码(柱搜索)的特点,使用基于错误修正的感知机学习算法,使其能够针对解码过程中的搜索错误训练出与之相适应的模型。在训练正例选择上,我们使用强制解码方法得到标准推导作为感知机更新正例。我们的方法能够利用丰富的上下文特征,处理千万级的判别式稀疏特征。在不同语言对的多组实验中,我们方法显著的提升了翻译系统的性能。 2.大规模判别式n-gram特征在机器翻译中的应用 传统n-gram语言模型基于有限历史假设,在利用上下文信息上存在着严重的不足。为此我们提出将大规模判别式n-gram特征应用于机器翻译的方法,充分利用词类信息、互信息等丰富的上下文特征,来弥补n-gram语言模型在捕捉长距离依赖和处理未登录词方面的不足。同时,在模型训练方面,我们使用基于错误修正的感知机学习算法,使用统一的判别式训练框架和优化目标对n-gram特征和其他翻译模型特征进行训练。最终我们利用千万级的n-gram特征,在汉英测试集上取得了良好的效果。 3.判别式结构化语言模型在机器翻译中的应用 树到串系统作为基于句法机器翻译系统中的经典方法,在近年的评测和学术研究中都取得了巨大的成功。本章中我们针对树到串模型在目标端句法约束上的不足,提出一种判别式结构化语言模型:在机器翻译解码过程中,利用移进规约句法分析算法动态的生成目标端的依存树,并利用判别式句法特征衡量生成依存树的质量,计算结构化语言模型得分,将其作为特征融入对数线性模型中,选择出具有较好树结构的翻译结果,保证了翻译结果的句法性。这样,既避免了使用树到树模型带来的模型复杂度问题和不同语言句法树异构性问题,又成功的引入了目标端句法信息。汉英语言对上的实验证明,我们的方法能够选择出句法性更强的翻译结果,并在系统BLEU值上取得显著地提升。