基于大规模特征的判别式机器翻译方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lg0768
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译是近年来自然语言处理领域最受瞩目的研究热点之一,具有重要的学术研究价值和广阔的应用前景。目前统计机器翻译已经经历了基于词的模型、基于短语的模型、基于句法的模型的演进过程。随着模型的不断升级,越来越多的语言学知识被挖掘出来,如何有效的利用和整合各类语言学知识来构建机器翻译系统成为亟待解决地问题,并成为统计机器翻译新的研究热点。  本文从利用丰富的语言学知识改进机器翻译的角度出发,系统地研究了一套判别式机器翻译方法。旨在利用判别式模型在优化目标定义和融合多源特征方面优势,将各类丰富的语言学知识以大规模判别式特征的形式融合起来,改进机器翻译。主要创新点如下:  1.基于感知机和强制解码的判别式机器翻译方法  本文首次将基于错误修正的感知机训练算法用于机器翻译,使大规模判别式训练在机器翻译上取得突破。从传统的少量特征、开发集调参,上升为大规模特征、训练集调参。该方法针对机器翻译使用非精确解码(柱搜索)的特点,使用基于错误修正的感知机学习算法,使其能够针对解码过程中的搜索错误训练出与之相适应的模型。在训练正例选择上,我们使用强制解码方法得到标准推导作为感知机更新正例。我们的方法能够利用丰富的上下文特征,处理千万级的判别式稀疏特征。在不同语言对的多组实验中,我们方法显著的提升了翻译系统的性能。  2.大规模判别式n-gram特征在机器翻译中的应用  传统n-gram语言模型基于有限历史假设,在利用上下文信息上存在着严重的不足。为此我们提出将大规模判别式n-gram特征应用于机器翻译的方法,充分利用词类信息、互信息等丰富的上下文特征,来弥补n-gram语言模型在捕捉长距离依赖和处理未登录词方面的不足。同时,在模型训练方面,我们使用基于错误修正的感知机学习算法,使用统一的判别式训练框架和优化目标对n-gram特征和其他翻译模型特征进行训练。最终我们利用千万级的n-gram特征,在汉英测试集上取得了良好的效果。  3.判别式结构化语言模型在机器翻译中的应用  树到串系统作为基于句法机器翻译系统中的经典方法,在近年的评测和学术研究中都取得了巨大的成功。本章中我们针对树到串模型在目标端句法约束上的不足,提出一种判别式结构化语言模型:在机器翻译解码过程中,利用移进规约句法分析算法动态的生成目标端的依存树,并利用判别式句法特征衡量生成依存树的质量,计算结构化语言模型得分,将其作为特征融入对数线性模型中,选择出具有较好树结构的翻译结果,保证了翻译结果的句法性。这样,既避免了使用树到树模型带来的模型复杂度问题和不同语言句法树异构性问题,又成功的引入了目标端句法信息。汉英语言对上的实验证明,我们的方法能够选择出句法性更强的翻译结果,并在系统BLEU值上取得显著地提升。
其他文献
学位
随着计算机网络技术以及嵌入式技术的发展,无线自组织网络逐渐走入了人们的视线,并在许多领域当中获得了广泛的关注和应用,如军事、卫生医疗、环境勘测与保护、城市交通等方面。
在当今的云数据中心,受共享式存储架构和I/O虚拟化技术的限制,虚拟机的存储性能已经成为虚拟机整体系统性能的瓶颈,阻碍了数据密集型应用在云平台上的部署。同时,随着近年来存储
现实世界中充满着各种各样的复杂网络。复杂网络所拥有的一个最普遍和最重要的拓扑属性是社区结构,即网络是由若干个社区组成的。在同一个社区内部,节点与节点的连接紧密,而不同
该文结合国内办公活动的特点,提出了运用CSCW技术进行办公自动化系统的开发的思想,并利用CSCW技术构建了一个办公自动化系统原型,同时在分析CSCW中相关技术的基础之上提出了
该文紧密结合Lotes Notes/Domino开发环境的特点,充分利用其在网络功能和安全性方面的卓越性能,探索出了一套适合在Lotus Notes/Domino上开发工作流应用软件的方法.该方法从
随着人们步入信息时代,人们的日常生活及工作已越来越离不开各种信息数据的处理。日益增长的信息存储量,庞大的用户查询次数,拥塞的网络都使得数据的查询和执行效率成为了一个瓶
该文先将动态车辆视频压缩图像采集到计算机中,并实现了自动将其转化为静态图像序列.经过噪声滤除后,该文采用了一种边缘加强和图像相三的算法,可以把车辆从复杂背景中提取出
随着互联网的快速发展,海量、分布、异构、动态变化的各类信息不断涌现。如何从这些海量信息中挖掘出用户感兴趣的知识,成为当前研究的重点之一。主题模型做为一种近些年兴起的
随着互联网技术的迅速发展,网络承载的业务数量日趋庞大,种类日趋复杂。与此同时,用户对业务主观要求的日益提高,对网络如何有效保障业务的服务质量(Quality of Service,QoS)提出