论文部分内容阅读
统计机器翻译经历了从规则到统计的变革,翻译质量不断提升。最近几年,伴随着神经网络机器翻译的出现,翻译性能有了新的突破。神经网络翻译模型采用了“端到端”的翻译模式,通过一个递归神经网络编码器将源语言表示为实数向量的形式,再使用另一个递归神经网络解码器将这个向量解码为目标语言句子。神经网络翻译模型具有模型简单翻译结果流畅的优点,然而作为一个全新的方法,仍然有很大的改进空间,尤其在长句子翻译上不尽如人意。本文从提高模型的表示和记忆能力为切入点,通过在不同维度对网络结构的调整,有效的改进了模型的表示能力从而有效的提高了神经网络翻译模型的性能。本文的创新点如下: 1.卷积网络表示增强模型递归神经网络从左到右递归的处理信息,导致信息处理的不平衡性,尤其对于长距离依赖关系的处理不足。基于这样的问题,我们提出一个新颖的有特殊结构的卷积神经网络处理序列信息。不同于递归神经网络,卷积网络提供了一个自底向上的视角和更扁平的方式存储和转换信息。所有的历史信息并不是被压缩到一个固定的状态中,而是存储在整个网络中,当需要使用的时候再进行变换,把需要的信息提取出来。这样的模式,可以有效的扩展模型的记忆能力,从而捕捉到长距离的依赖关系。 2.深度记忆增强的翻译模型深度神经网络具有更好的模型表达和捕捉隐式语言学结构的能力,可以潜在的提高神经网络翻译模型的记忆能力。然而,由于递归神经元的非线性结构,具有多层网络的深度翻译模型往往面临严重的梯度消失问题,使得深度模型的训练变得更困难。为了解决这个问题,我们提出了线性相关的递归神经元LAU(linear associative units),在神经元内部减少导数传递路径。与传统的GRU和LSTM不同,LAU采用了线性和非线性混合的模式,使得信息在时间和空间方向上都可以顺畅的流动。在LAU的基础上,我们进一步提出了一个深度翻译模型DeepLAU,编码器和解码器都具有多层结构,可以更好的存储历史信息。DeepLAU模型简单,非常有效,在多个公开数据集合上取得了比最好结果更高或者相当的翻译性能,比强基线系统高了5个BLEU。 3.内存扩展解码器传统的神经网络解码器主要依赖于一个隐层节点递归地存储所有的历史信息,这种存储模式对于具有复杂语言学结构的句子来说是不充足的。我们提出一种基于额外内存扩展的翻译模型,将所有历史信息存储在额外内存里面,通过精心设计的读写机制控制翻译模型和额外内存的交互。实验证明了我们的方法能够有效的提高翻译结果,我们的系统在正确配置的情况下比开源的神经网络翻译系统Groundhog高4.8个BLEU。