树到串统计翻译模型研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:hrwhrw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十年来,统计机器翻译取得了很大的成功.基于短语的翻译模型超越了最初的基于词的翻译模型,在近期的机器翻译评测中屡次取得领先成绩,成为统计机器翻译的主流技术.然而,基于短语的模型的一大缺点是难以处理短语间的重排序.因此,能将句法信息引入翻译的基于句法的翻译模型成为当前的研究热点. 本文重点研究了统计机器翻译中的两个关键问题:词语对齐和翻译模型. 词语对齐对统计机器翻译而言至关重要,因为经过词语对齐的语料是极有价值的翻译知识源.本文为词语对齐提出对数线性模型框架.在此框架下,所有的知识源被视作依赖于源语言句子、目标语言句子以及可能的其他变量的特征函数.对数线性模型使统计对齐模型易于扩展,方便加入更多的语言学信息,从而能同时处理与具体语言相关和不相关的语言现象.本文讨论了框架的形式化定义、特征函数、最小错误率训练、搜索算法以及n.best列表生成等问题.我们在三个词语对齐评测的数据集(包含五个语言对)上对词语对齐的对数线性模型进行评价.实验表明,对数线性模型超过了绝大多数参加评测的系统. 翻译模型设计是统计机器翻译的核心问题.本文提出三个基于句法的树到串翻译模型: 1.嵌入句法树的基于短语的翻译模型,简称模型1.此模型在传统的基于短语的模型的基础上以隐变量的方式嵌入句法树,从而可以利用句法信息指导短语的划分、重排序和翻译.模型 1 只使用句法双语短语,搜索空间比传统模型小.我们的主要创新点是提出了树节点重排序,实现了利用句法信息指导短语重排序. 2.基于树到串对齐模板的翻译模型,简称模型2.此模型在模型 1 的基础上提出了树到串对齐模板.树到串对齐模板描述了源语言句法树和目标语言串之间的对齐关系.它既能生成终结符又能生成非终结符,既能执行局部的重排序又能执行全局的重排序. 3.融入森林到串规则的树到串翻译模型,简称模型3.此模型对模型2进行扩充,引入森林到串翻译规则,通过描述森林和串之间的对齐关系来捕获非句法短语,使表达能力得到进一步提升.为了将森林到串翻译规则融入到树到串翻译模型中,我们引入辅助规则来提供泛化层. 我们将这三个基于句法的翻译模型与国际学术界最常用的基于短语的翻译系统Pharaoh做对比.在2005年NIST汉译英机器翻译评测测试集上,模型1的翻译性能接近基准系统,模型2和模型3均明显超过了基准系统.
其他文献
在网络技术普及的今天,网络应用已经深入到人们的各种日常活动中,但是邮件蠕虫、特洛伊木马、拒绝服务攻击以及其他恶意行为仍然频繁的在终端用户机上发起攻击,危害企业网安
面向事件流应用的大规模数据密集型系统得到了越来越广泛的应用,本文在分析事件流应用特征的基础上,展开了查询优化的研究。大规模系统的查询优化,不仅要加速查询的执行过程,更需
现有的序列模式挖掘算法能有效地在大型数据库中挖掘出完整的序列模式集,然而在很多实际应用中,用户更希望找出感兴趣的、更简洁的模式,而不是所有的模式。本文主要研究了如
软件测试是保证软件质量的重要手段,为了确保软件产品能够符合用户的需求,必须着眼于整个软件生存期,在各个阶段进行验证、确认和测试活动。软件测试一般要经过单元测试、集
随着网络数字资源和应用的迅速增长,门户(Portal)作为一种集中、整合、访问异构、分布式数字资源和应用的方法,在数字图书馆、企业、电子政府、教育、科研等众多领域得到了广泛
随着深亚微米半导体技术的进步,集成电路特征尺寸不断缩小,芯片规模不断增大,集成在单颗芯片上的功能日趋复杂,ASIC芯片测试的难度和所需的时间、成本也同时增加。DFT设计与芯片
信息化智能化技术的普及给传统工业带来了巨大的影响,制造业的生产方式也发生了巨大的改变。制造业智能化技术包括设计智能化、关键工序智能化、供应链优化管理等部分。服装制
RSS是Web2.0应用中一项重要的技术,在资讯爆炸的时代,它实现了信息的主动推送从而改变了人们长期获得信息的方式。但随着可订阅资源和用户订阅频道数的增加,RSS聚合系统出现了严
未来几十年内,煤炭依然是我国的主要能源,以煤炭为主的能源结构将难以改变,因此煤炭企业的安全生产问题是目前及今后相当长一段时间内的一个重点问题。井下人员定位技术是煤矿中
近年来,各种数据密集型应用得到了前所未有的快速发展。这些应用对存储系统的要求越来越高。为了满足这些应用的需求,许多存储系统采用先进的软硬件技术为上层应用提供高效率的