统计机器翻译中短语及结构的译文选择问题研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:GISSeven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于短语的翻译模型以短语作为翻译单元,是当前统计机器翻译的主流技术。近年来,基于句法的翻译模型将句法信息引入翻译,以句法结构作为翻译单元,已成为研究热点。   无论哪种翻译模型,译文选择都是关系翻译质量的关键问题。译文选择是指根据从平行语料库中获取的翻译知识,为源语言翻译单元选择合适的目标语言翻译单元。译文选择不仅影响词语翻译,也影响词语调序。因此,译文选择的准确性直接关系到翻译的忠实度和流利度。   本文重点研究了基于短语的模型和基于句法的模型中短语及结构的译文选择问题,取得了以下研究成果:   1.基于相似度的短语选择   短语对于基于短语的模型而言至关重要,因为短语能够减少词语歧义、进行局部词语调序。提出了一种基于相似度的短语选择方法。该方法通过计算源语言短语的相似度,使用部分匹配策略选择双语短语,为集外短语构造翻译,缓解了原来完全匹配策略导致的数据稀疏问题。实验表明,基于该方法的翻译系统“Mencius”的翻译质量超过了目前国际上主流的基于短语的翻译系统“Moses”。   2.层次短语模型中的规则选择   层次短语(Hierarchical Phrase-Based,简称为HPB)模型是基于形式化语法的翻译模型的典型代表。层次短语规则包含结构信息,对于短语调序具有重要作用。针对HPB模型在规则选择时缺乏上下文信息的问题,提出了最大熵规则选择(Maximum Entropy based Rule Selection,简称为MERS)模型。MERS模型将规则选择问题转化为多类分类问题,使用规则外部上下文信息和规则内部变量所代表的短语信息作为特征构建最大熵分类器,具有良好的可扩展性。实验表明,MERS模型能够显著地提高目前国际上性能最好的基于形式化语法的翻译系统Hiero的翻译质量。   3.树到串对齐模板模型中的规则选择   树到串对齐模板(Tree-to-string Alignment Template,简称为TAT)模型是基于语言学语法的翻译模型的典型代表。该模型使用了源语言端丰富的句法结构信息指导翻译。针对其在规则选择时缺乏上下文信息的问题,提出了融合丰富句法知识的MERS模型。在特征定义时,充分使用了丰富的句法树特征。实验表明,MERS模型能够显著地提高目前国际上著名的基于语言学语法的翻译系统Lynx的翻译质量。
其他文献
由Mandelbrot创建的分形理论现在被广泛地应用于各种领域。利用分形可以解释自然界中不稳定的、非线性的、不规则的复杂现象的内在规律,可以研究无标度特性的物体和集合的自相
近年来互联网金融产业蓬勃发展,伴随而来的是规模巨大的互联网金融数据,这些数据蕴含着巨大的价值,有行业热点追踪预测、行业监管等重要应用。在对互联网金融数据进行数据挖掘、
党的十八大作出“建设海洋强国”的重大部署,“走向海洋”被提升到国家战略高度。随着定位设备准确性的提高,以及通信设备覆盖面及传输量的扩展,不论是企业、政府还是国防单位,都
With emergence of Service Oriented Architecture (SOA) as the main technology forenterprise application development and integration, there is a need of servicede
现实世界是一个变化的世界.不同的时间下,世界呈现不同的状态.在任何领域,变化是一个永恒的主题。如何在计算机中表示动态变化的过程是一个复杂并且值得深入研究的问题.本文主
近年来随着数据挖掘的研究及其应用的逐步深入,分类已成为数据挖掘一个重要的研究方向。分类作为一项具有较大的实用价值的关键技术,在公共管理,金融,商业和科学研究等领域获得了
本学位论文对汉字的结构与部件拆分作了研究,并对如何从数字图片中提取书法汉字的部件及其基本特征和部件间相互关系进行了初步算法性探索。做上述工作是原于以下的想法:1)书法
随着无线通信技术的发展、移动终端设备的高速增长和信息访问需求的日益增加,移动电子商务具有远大的市场前景。移动电子商务能够超越时间和空间的限制,使人们通过移动通信设备
学位
编译器是软件产业中重要的工具,对它的质量保证非常重要。编译优化是编译器的重要功能,它的质量对于编译器质量有重大影响。   可采用软件测试的方法进行编译器优化模块的质
随着计算机信息处理能力的增强和表现形式的多样化,人机交互界面正逐渐由单一的图形用户界面GUI朝着具有高交互性和多模态性的感知用户界面(PUIs)发展。视觉通道承载了大量的