【摘 要】
:
近年来机器翻译研究进展显著,但译文的质量仍存在很大的改善空间。如何在统计机器翻译模型中有效融合深层语义知识,如时态、语态信息等进行翻译,是研究热点之一。日语属于黏
论文部分内容阅读
近年来机器翻译研究进展显著,但译文的质量仍存在很大的改善空间。如何在统计机器翻译模型中有效融合深层语义知识,如时态、语态信息等进行翻译,是研究热点之一。日语属于黏着语系,通过谓语词尾的变化来表达语态信息。而日语被动态和可能态词尾变化相同,导致统计机器翻译中难以对其正确区分及翻译。层次短语模型采用形式化句法进行建模和解码,易于拓展,但该模型无法有效解决日语被动态和可能态的翻译问题。针对此问题,本文提出了有效的解决方案、系统设计和实验验证。本文的创新点和贡献主要有以下三点:(1)总结归纳日语语言学知识,从日汉和日英两个角度,对被动态与可能态句子进行分析,通过对日语依存句法树的解析分析其结构特征,确定语态相关的特征来构建语态分类模型,有效区分被动态、可能态和其它语态。(2)分析总结层次短语翻译模型中可能态和被动态规则歧义问题,将不同语态的翻译看作是解码器对不同语态的规则选择问题,融合更多的语态上下文信息,提出了一种面向层次短语模型的规则特征抽取算法。(3)针对不同语种的被动和可能语态的句法结构差异影响机器翻译质量的问题,本文提出了融合语态特征的最大熵翻译模型。抽取双语特征训练最大熵规则分类模型,将语态特征融合入对数线性模型中以改善翻译模型,提高了解码器在翻译被动语态和可能语态时规则选择的准确性。实验结果表明,该方法可以有效地改善日语统计机器翻译的句法结构调序和词汇翻译,提升被动语态和可能语态句子的翻译质量。
其他文献
对地观测系统(Earth Observation System, EOS)是使用航天遥感器实现对地观测,它的建立有非常重要的意义,例如可以实现军事侦察,进行地球资源勘探,获取区域立体影像从而进行
云计算是下一代IT企业架构,但是云计算的安全问题阻碍了其大规模应用,其中一个主要的挑战是远程公开地对不可信的云存储服务器上的用户数据进行完整性检验。然而由于用户有限的
近年来,微电子技术、传感器技术、无线通信等技术的发展与进步,共同推动了具有多功能、低能耗的无线传感器网络的产生及发展。无线传感器网络是由大量廉价传感器组成的一种无基
问答系统是新一代智能搜索引擎,它允许用户以自然语言提问,并能够向用户返回准确的答案。所以,与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需
miRNA是近几年生物信息学领域的研究热点。它在人类疾病的产生、发展等过程中都起到非常关键的作用。虽然可以通过生物实验的方法挖掘出某些致病miRNA,但是这里面往往会存在两
背包问题不仅具有重要的理论研究价值,而且在实际问题中有着重要的应用,与企业效益密切相关。在经典的背包问题中,物品的价值是事先给定的,与放入的背包无关。但是对于一些实
随着计算机网络的发展,网络协议的重要性日渐突出。协议是通信各方能够正确互联的保证,是各个通信实体间需要遵守的一系列规则。然而,多数协议的文档都是通过自然语言进行书
目前主流的虚拟化技术厂商都实现了虚拟机监控器的内存页共享功能,虚拟机之间内容相同的多个内存页只占用一份实际的机器内存页,这一技术能够降低单个物理机的内存消耗。但是
近几年,由Facebook和Twitter所引领的社交类网站迅速发展,已渗入普通网民的日常生活。社交网络以“六度分离”理论为基础,使得人们能够在除现实世界外不断拓展自己的朋友圈子。
全文检索技术不仅可以实现情报检索的绝大部分功能,而且还能直接根据数据资料的内容进行检索。当今以全文检索为核心技术的搜索引擎已成为网络时代的主流技术之一。全文检索的