论文部分内容阅读
近十年来,统计机器翻译取得了很大的成功。统计机器翻译过程实际上是很复杂的流程,涉及了许多自然语言处理技术,如:分词、词性标注、句法分析、词语对齐等。该流程中,每个模块都输出1-best作为下一模块的输入,我们称之为1-best统计机器翻译框架。该框架的一个重要前提假设为:每个模块相互独立;每个模块单独开发、单独测试。然而在现实情况下,由于各个模块性能不能达到100%正确,每一步都会引入歧异或错误,这种错误在不断积累与放大,最终严重影响了机器翻译译文质量。为了降低或消除这种错误的积累与放大问题,本论文提出了容错统计机器翻译思想,容错统计机器可以描述为:通过使用有效的压缩数据表示形式代替1-best结果,使得每个模块的输出包含更多可能的结果,从而使下一个模块能在更大范围内进行选择,而不会陷入传统1-best错误。另外,在模块内部,本文采用多子模型容错方法增强模型的决策能力。容错统计机器翻译减少了错误数据对译文质量的影响,最终提高整个机器翻译的译文质量。
一种简单的容错方法是使用k-best代替1-best,然而k-best表示空间小、冗余信息多,影响了各个模块的分析速度和质量。
本文提出了使用有效的压缩数据表示形式代替1-best结果的容错方法,这些压缩结构一方面可以在多项式的存储空间上表示指数级的结果,另一方面能实现子结构共享,从而在时间、空间和翻译质量上找到最佳结合点。与1-best分词标注、句法树与翻译结果相对应的压缩结构为词图、句法森林与翻译森林。为了解决使用压缩数据结构后,对分析算法所带来的困难,本文在不同的压缩结构及模块中实现了不同的有效算法。
本博士论文的主要容错工作表现在以下几个方面:
1.基于词图的中文分词与词性标注重排序
传统中文分词与词性标注重排序模型都只使用k-best中文分词与词性标注结果进行重排序。然而,k-best表示空间小、空间冗余,影响了重排序能力。本文提出了基于词图的重排序,词图可以在多项式存储空间上表示指数级的中文分词与词性标注结果。在此基础上,本文提出了词图的生成、剪枝及Oracle值计算算法,基于平均感知机的重排序算法能有效利用非局部特征。实验结果表明,该方法与1-best结果相比,切分及标注F1值错误率降低了16.3%,切分F1值错误率降低了11.9%,这个结果也超过了传统基于50-best的重排序结果。
2.多子模型句法分析
句法分析是基于句法翻译模型的一个重要环节,当前主流的中心词驱动词汇化模型强调了词汇对短语结果的概率分布的影响,取得了很好的效果,但该模型也有一定的缺点,比如说,未能很好刻画句法规则之间的组合搭配信息,而结构上下文模型弥补了这一点。为了弥补单一模型决策有偏差的问题,本文提出了多子模型容错句法分析模型,将两种模型按照对数线性模型有效的融合为一个模型,充分有效的利用了各个模型之间的优势,增强模型的决策能力。在宾州中文树库1.0版本(Penn Chinese Treebank V1.0)上,实验结果表明,融合模型的Fl值比最好子模型提高了0.9个百分点。此外,该融合方法很容易扩展到中文分词与词性标注、机器翻译等模块。
3.基于句法森林的翻译规则抽取
翻译规则抽取也一样是统计机器翻译中的一个重要步骤,尤其是对于基于句法的系统。然而传统的方法只使用1-best句法树来抽取规则,句法分析错误直接影响了抽取规则的质量,本文提出了基于句法森林的规则抽取方法,句法森林通过共享压缩结构可以在多项式级空间压缩指数级树,该方法有效缓解了句法分析带来的错误。在此基础上,本文提出了递归式抽取算法,并通过内向外向算法对规则频次做合理估计。实验表明该方法比1-best方法BLEU值高出1个点,并且还比30-best方法抽取速度快、BLEU高。
4.基于句法森林的解码与翻译森林生成
在机器翻译解码中,基于树的模型要比基于串的模型速度快、模型简单,将句法语法与翻译语法分开,但它的缺陷在于也只是用1-best句法树来指导翻译,句法分析错误直接导致翻译错误。本文提出了基于句法森林的翻译方法,句法森林通过共享压缩结构可以在多项式级空间压缩指数级树,既保证了翻译速度,又保证不会陷入句法分析错误。在此基础上,本文提出了转换算法,将句法森林转换成翻译森林,解码器在翻译森林上搜索最好的翻译结果。实验表明该方法比1-best翻译方法BLEU值高出1.7个点,并且比30-best方法解码速度快、BLEU高。另外,本文提出了翻译森林的概念,它是与词图、句法森林等价的数据结构,解码后的翻译森林加入了语言模型等丰富的特征信息,并可以通过多项式级空间共享存储指数级翻译结果,为下一个模块(如:基于翻译森林的翻译重排序、基于翻译森林的最小错误率训练等)提供的很好的数据接口。
最后本文将基于多子模型的句法分析、基于句法森林的规则抽取与基于句法森林的翻译融合为基于句法的容错翻译系统。该系统集成了各个容错模块的优势,大规模实验结果表明,该系统超越1-best树翻译系统2.5个BLEU点,甚至是超出了当前公认最好的形式上基于句法的层次短语系统Hiero。