改进的神经网络机器翻译方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yttgfnm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译经历了从规则到统计的变革,翻译质量不断提升。最近几年,伴随着神经网络机器翻译的出现,翻译性能有了新的突破。神经网络翻译模型采用了“端到端”的翻译模式,通过一个递归神经网络编码器将源语言表示为实数向量的形式,再使用另一个递归神经网络解码器将这个向量解码为目标语言句子。神经网络翻译模型具有模型简单翻译结果流畅的优点,然而作为一个全新的方法,仍然有很大的改进空间,尤其在长句子翻译上不尽如人意。本文从提高模型的表示和记忆能力为切入点,通过在不同维度对网络结构的调整,有效的改进了模型的表示能力从而有效的提高了神经网络翻译模型的性能。本文的创新点如下:  1.卷积网络表示增强模型递归神经网络从左到右递归的处理信息,导致信息处理的不平衡性,尤其对于长距离依赖关系的处理不足。基于这样的问题,我们提出一个新颖的有特殊结构的卷积神经网络处理序列信息。不同于递归神经网络,卷积网络提供了一个自底向上的视角和更扁平的方式存储和转换信息。所有的历史信息并不是被压缩到一个固定的状态中,而是存储在整个网络中,当需要使用的时候再进行变换,把需要的信息提取出来。这样的模式,可以有效的扩展模型的记忆能力,从而捕捉到长距离的依赖关系。  2.深度记忆增强的翻译模型深度神经网络具有更好的模型表达和捕捉隐式语言学结构的能力,可以潜在的提高神经网络翻译模型的记忆能力。然而,由于递归神经元的非线性结构,具有多层网络的深度翻译模型往往面临严重的梯度消失问题,使得深度模型的训练变得更困难。为了解决这个问题,我们提出了线性相关的递归神经元LAU(linear associative units),在神经元内部减少导数传递路径。与传统的GRU和LSTM不同,LAU采用了线性和非线性混合的模式,使得信息在时间和空间方向上都可以顺畅的流动。在LAU的基础上,我们进一步提出了一个深度翻译模型DeepLAU,编码器和解码器都具有多层结构,可以更好的存储历史信息。DeepLAU模型简单,非常有效,在多个公开数据集合上取得了比最好结果更高或者相当的翻译性能,比强基线系统高了5个BLEU。  3.内存扩展解码器传统的神经网络解码器主要依赖于一个隐层节点递归地存储所有的历史信息,这种存储模式对于具有复杂语言学结构的句子来说是不充足的。我们提出一种基于额外内存扩展的翻译模型,将所有历史信息存储在额外内存里面,通过精心设计的读写机制控制翻译模型和额外内存的交互。实验证明了我们的方法能够有效的提高翻译结果,我们的系统在正确配置的情况下比开源的神经网络翻译系统Groundhog高4.8个BLEU。
其他文献
虚拟专用网(VPNs)是有效利用公用网络作为专用网的一种最有前途的方法。VPNs利用隧道技术,以很低的成本为远程访问、Extranet和Intranet应用提供了穿越公用网络的安全稳定的通
该文针对英文名词短语的指代消解问题,提出了一种基于最大熵模型的学习算法:1.我们利用少量的标注语料供最大熵模型训练,产生规则集,取代了传统的手工构建规则集的做法.该模
网络功能虚拟化(Network Functions Virtualization,NFV)将网络功能(NetworkFunction,NF)软件化并通过虚拟化的方式部署在通用服务器上,通过动态的服务编排和按需的资源调度有效
传统的内外存层次结构正面临着容量、能耗和I/O性能等方面的挑战。新型非易失性存储器(Non-Volatile Memory,NVM)具有集成度高、低功耗、非易失等优势,已引起学术界和工业界的广
该系统采用集中控制机制,通过设置的"控制中心"对DiffServ网的所有节点进行拥塞控制.应用"模糊控制"技术,根据拥塞点的实际状况和数据流的业务等级,进行模糊推理和运算,从而
该文在归纳、总结了数据流研究的现状的基础上提出了一个在数据流上的快速有效的密度估计算法和一个在多数据流之间发现聚类关系的层次聚类算法.具体地说,该文的贡献有以下几
Peer-to-Peer(P2P)是通过直接交换共享计算机资源和服务的一种网络体系结构。Gnutella作为一种典型的P2P网络通信协议,具有智能发现节点、完全分布式的特点,它能够有效的消除单
学位
相似时序检索技术在数据挖掘、天气预报、股票走势的分析和预测等方面有着广阔的应用前景.常见的相似时序检索技术包括:时域法、频域法、段化法和波形描述法等.扩展时序数据
地理信息系统(GIS)的广泛应用巨大地推动着社会经济的发展。但是由于对于大多数用户来说并不需要功能复杂、难于掌握的工具型GIS,而是满足一定工作需要的应用型GIS,所以GIS的二