容错统计机器翻译关键技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:zhf2003168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十年来,统计机器翻译取得了很大的成功。统计机器翻译过程实际上是很复杂的流程,涉及了许多自然语言处理技术,如:分词、词性标注、句法分析、词语对齐等。该流程中,每个模块都输出1-best作为下一模块的输入,我们称之为1-best统计机器翻译框架。该框架的一个重要前提假设为:每个模块相互独立;每个模块单独开发、单独测试。然而在现实情况下,由于各个模块性能不能达到100%正确,每一步都会引入歧异或错误,这种错误在不断积累与放大,最终严重影响了机器翻译译文质量。为了降低或消除这种错误的积累与放大问题,本论文提出了容错统计机器翻译思想,容错统计机器可以描述为:通过使用有效的压缩数据表示形式代替1-best结果,使得每个模块的输出包含更多可能的结果,从而使下一个模块能在更大范围内进行选择,而不会陷入传统1-best错误。另外,在模块内部,本文采用多子模型容错方法增强模型的决策能力。容错统计机器翻译减少了错误数据对译文质量的影响,最终提高整个机器翻译的译文质量。   一种简单的容错方法是使用k-best代替1-best,然而k-best表示空间小、冗余信息多,影响了各个模块的分析速度和质量。   本文提出了使用有效的压缩数据表示形式代替1-best结果的容错方法,这些压缩结构一方面可以在多项式的存储空间上表示指数级的结果,另一方面能实现子结构共享,从而在时间、空间和翻译质量上找到最佳结合点。与1-best分词标注、句法树与翻译结果相对应的压缩结构为词图、句法森林与翻译森林。为了解决使用压缩数据结构后,对分析算法所带来的困难,本文在不同的压缩结构及模块中实现了不同的有效算法。   本博士论文的主要容错工作表现在以下几个方面:   1.基于词图的中文分词与词性标注重排序   传统中文分词与词性标注重排序模型都只使用k-best中文分词与词性标注结果进行重排序。然而,k-best表示空间小、空间冗余,影响了重排序能力。本文提出了基于词图的重排序,词图可以在多项式存储空间上表示指数级的中文分词与词性标注结果。在此基础上,本文提出了词图的生成、剪枝及Oracle值计算算法,基于平均感知机的重排序算法能有效利用非局部特征。实验结果表明,该方法与1-best结果相比,切分及标注F1值错误率降低了16.3%,切分F1值错误率降低了11.9%,这个结果也超过了传统基于50-best的重排序结果。   2.多子模型句法分析   句法分析是基于句法翻译模型的一个重要环节,当前主流的中心词驱动词汇化模型强调了词汇对短语结果的概率分布的影响,取得了很好的效果,但该模型也有一定的缺点,比如说,未能很好刻画句法规则之间的组合搭配信息,而结构上下文模型弥补了这一点。为了弥补单一模型决策有偏差的问题,本文提出了多子模型容错句法分析模型,将两种模型按照对数线性模型有效的融合为一个模型,充分有效的利用了各个模型之间的优势,增强模型的决策能力。在宾州中文树库1.0版本(Penn Chinese Treebank V1.0)上,实验结果表明,融合模型的Fl值比最好子模型提高了0.9个百分点。此外,该融合方法很容易扩展到中文分词与词性标注、机器翻译等模块。   3.基于句法森林的翻译规则抽取   翻译规则抽取也一样是统计机器翻译中的一个重要步骤,尤其是对于基于句法的系统。然而传统的方法只使用1-best句法树来抽取规则,句法分析错误直接影响了抽取规则的质量,本文提出了基于句法森林的规则抽取方法,句法森林通过共享压缩结构可以在多项式级空间压缩指数级树,该方法有效缓解了句法分析带来的错误。在此基础上,本文提出了递归式抽取算法,并通过内向外向算法对规则频次做合理估计。实验表明该方法比1-best方法BLEU值高出1个点,并且还比30-best方法抽取速度快、BLEU高。   4.基于句法森林的解码与翻译森林生成   在机器翻译解码中,基于树的模型要比基于串的模型速度快、模型简单,将句法语法与翻译语法分开,但它的缺陷在于也只是用1-best句法树来指导翻译,句法分析错误直接导致翻译错误。本文提出了基于句法森林的翻译方法,句法森林通过共享压缩结构可以在多项式级空间压缩指数级树,既保证了翻译速度,又保证不会陷入句法分析错误。在此基础上,本文提出了转换算法,将句法森林转换成翻译森林,解码器在翻译森林上搜索最好的翻译结果。实验表明该方法比1-best翻译方法BLEU值高出1.7个点,并且比30-best方法解码速度快、BLEU高。另外,本文提出了翻译森林的概念,它是与词图、句法森林等价的数据结构,解码后的翻译森林加入了语言模型等丰富的特征信息,并可以通过多项式级空间共享存储指数级翻译结果,为下一个模块(如:基于翻译森林的翻译重排序、基于翻译森林的最小错误率训练等)提供的很好的数据接口。   最后本文将基于多子模型的句法分析、基于句法森林的规则抽取与基于句法森林的翻译融合为基于句法的容错翻译系统。该系统集成了各个容错模块的优势,大规模实验结果表明,该系统超越1-best树翻译系统2.5个BLEU点,甚至是超出了当前公认最好的形式上基于句法的层次短语系统Hiero。
其他文献
随着因特网和无线通信技术的发展,越来越多的移动设备需要接入因特网。为了支持移动设备接入因特网的需求,IETF制定了移动IPv6以提供移动数据解决方案。但是移动IPv6存在切换延
数据挖掘的概念自产生之初,就受到了研究学者们的广泛关注。经过几十年的发展,许许多多的新概念、新方法被人们探索出来,并得到传承和改进。特别是最近几年,一些基本概念和基本方
近年来,个人消费信贷蓬勃发展,商业银行的个人信贷业务所面临的信用风险逐渐成为影响商业银行最重要的风险。在我国的信用基础以及信用评估技术还相对薄弱的情况下,借鉴国外的信
本文的课题背景为国家自然科学基金“多关系频繁模式挖掘模型、方法库的知识发现机理、模型与算法研究”(项目批准号:60875029)。   多关系数据流环境,是一种现实存在而又复
研制具有千万亿次计算能力的并行计算机系统是当前的重大挑战之一。曙光5000高效能计算机系统是中国科学院计算技术研究所国家智能计算机中心开发的面向千万亿次计算的超级计
说话人识别是根据语音信号中反映说话人生理和行为的个性特征自动鉴别说话人身份的一种生物认证技术,可广泛应用于电话银行、数据库访问、计算机远程登录、安全验证、自动控
在全超导非圆截面核聚变实验装置EAST大科学工程中,包含了很多个子系统,不同系统之间需要进行数据交换,分工合作。如在分布式计算环境中,由于每个主机时间不同步,会造成同一
学位
如何保证软件系统的正确性一直是人们所关注的问题,为了能够准确、快速地找到软件系统中存在的问题,研究者们研发出了对软件系统进行形式化验证的工具。在本文中,我们将使用FeaV
运动目标检测是当前图像技术研究应用的热点和焦点,作为运动目标视觉分析中的一项核心技术以及底层问题,是后续各种高层次的视频处理和应用理解的基础,同时也是视频监控技术自动
随着信息技术的发展,人们越来越强烈地希望用自然语言同计算机交流信息。如果计算机能够“理解”自然语言,用户就能够通过自然语言使用数据库、专家系统、管理信息系统等各种软