融合源语言句法知识的统计机器翻译方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:yy838026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于短语的统计机器翻译方法取得了快速进展,并获得了一定的应用。然而,该方法存在无法克服两种语言间的结构性差异,难以处理长距离短语重排序等本质问题。因此,研究如何融合源语言句法知识,建立更加鲁棒的高质量统计机器翻译模型,具有重要的理论意义和应用价值。   本论文针对在短语的翻译模型中如何融入更多深层次的句法知识以改善语言间的结构性差异,以及在语言学语法翻译模型中如何充分利用两端句法结构信息最大限度地解决语言间的结构性差异等问题,进行了深入研究。论文的主要工作和创新点归纳如下:   1、提出了适用于口语翻译的基于源语言句型的短语重排序方法   在挖掘与利用源语言句法知识方面,传统的句法分析技术很难适用于口语翻译。本文通过分析大量汉英口语翻译实例,观察到不同的句子类型具有不同的短语重排序特征。因此,本文提出了基于源语言句型的短语重排序方法。该方法以汉英翻译为例,首先利用基于支持向量机(SVM)的分类器将源语言句子划分为特殊疑问句、其他疑问句和非疑问句三种不同的句子类型。然后,针对不同的句子类型设计了不同的重排序模型。该方法改变了传统的重排序模型不考虑翻译句子的结构类型、一律按一种模式统一重排序的处理方法,有效减轻了汉英口语翻译中两种语言之间的结构性差异所造成的重排序困难。实验结果表明,基于源语言句型的短语重排序方法显著地改善了短语重排序性能,提高了基于短语的翻译系统的译文质量,并且可以与Moses中的词汇化短语重排序模型及基于最大熵的短语重排序模型等其他短语重排序模型实现互补。另外,基于源语言句型的短语重排序方法帮助本研究组在2008年和2009年连续两年取得国际口语翻译评测汉英任务第一名的优异成绩。   2、提出了有效融合源语言端句法规则的翻译框架   在融入传统句法知识改善短语重排序性能方面,一种非常流行的方法是设计源语言端的硬性规则或概率化规则对源语言句子进行重排序,以近似目标语言句子的语序。这种方法不仅十分依赖句法分析器的性能,容易在翻译前产生短语重排序错误,而且没有充分与解码器紧密结合,从而导致大量重排序错误无法在后续解码过程中得到纠正。针对这一问题,本文提出了一种有效融合源语言端句法调序规则的翻译框架。该框架的基本思想是:为了突出句法短语重排序的作用,并区别对待句法短语重排序与非句法短语重排序,将传统的短语重排序模型细分为句法短语重排序模型与非句法短语重排序模型。然后以括弧转录文法(BTG)的短语翻译模型为基础,将由源语言句法树中学到的硬性句法调序规则或概率化句法调序规则高效地融入句法短语重排序模型,以指导解码过程中的短语重排序。该框架突破了传统方法机械地利用源端句法规则调整源语言语序的做法,将句法规则作为一种特征巧妙地融合到翻译模型中。实验表明,该框架可显著地改善翻译性能,而且适用于大规模的实验环境。   3、提出了源语言端句法增强的串到树翻译模型   基于语言学语法的翻译模型直接利用语言学知识对翻译过程进行建模。实践证明,在基于两端句法的翻译模型中,要求对源端句法结构精确匹配的做法,并不能获得较高的译文质量。为了更加充分地利用两端的句法知识,本文提出了一种新的源语言端句法增强的串到树翻译模型(Souce-syntax augmented string-to-tree model,简称为SAS2T)。其基本思想是:对源端句法结构进行模糊匹配,而对目标端句法结构进行精确匹配。该模型在保证串到树翻译模型优势的基础上,利用模糊方法标注串到树规则的源端形成模糊树到精确树规则,并在解码中采用模糊方法进行规则匹配。实验表明,该模型明显优于基于形式化句法的层次短语翻译模型与串到树翻译模型。   4、在上述理论方法研究的基础上,分别实现了两个统计机器翻译系统   本文在有效融入源语言端句法规则的统计翻译框架的基础上,实现了翻译系统SynMEBTG,该系统在2009年全国机器翻译评测中取得了非常优异的成绩;另外,在SAS2T模型的基础上,建立了名为AppleTree的翻译系统。大量实验结果表明,AppleTree系统至少比串到树系统提高了0.5以上的BLEU值,比基于形式化句法的层次短语系统Joshua提高了1.5以上的BLEU值。
其他文献
学位
十多年来,短信服务在世界各国电信市场中得到巨大的发展。而手机短信发送量的增长伴随而来的就是日趋泛滥的垃圾短信。词特征数量多,维数大,需要进行特征选择,否则会严重影响
随着世界各国对海洋的深入探寻,海洋勘测设备也由海上逐步向海下发展,根据海水环境的独特性质,水下设备应具有自主沉浮的能力,才能对海洋进行立体式探测。本文立足于中小型水下设
水下仿生游动机器具有机动性好、推进效率高等优点,应用前景广阔。而两侧波动鳍推进型仿生游动机器是一类典型的水下仿生游动机器系统。本文针对两侧波动鳍推进型仿生游动机器
磁共振无线供电技术,是一项近年刚出现的利用磁耦合谐振线圈之间的共振来实现电能以无线方式高效率传输的技术。相对于其它无线供电技术,磁共振无线供电技术具有中等距离上几乎
移动服务机器人工作时不仅需要识别周围的物体,而且也需要辨识环境中的运动的行人,因此,物体识别与行人检测是服务机器人领域中的两个重要的研究问题。特征提取与表达则是物体识
纳什均衡很好地定义了一次性博弈情况下所有参与者的行为结果,但是在生物界和人类社会当中,一次性博弈情况下的结果很难精确描述参与者的动态行为;纳什均衡不能较好地解释由
电磁法探测技术是地球物理勘探技术中常用的一类,其中电磁发射机作为电磁信号发射的装备,主要功能是对电能进行转换,将输入的工频正弦交流电进行AC-DC-AC-DC-AC变换,从而获得输出
据统计,中国目前中风患者数量已经达到了600万人,约四分之三的患者伴有运动功能障碍,而且患病人群逐年呈年轻化趋势,如何改善这部分人群的生活质量,提高其生活自理能力是社会亟待
水下机器人作为一种先进的水下运动平台,可携带多种传感器和设备用于海洋科学考察和环境监测,取得有价值的科学资料。随着陆地资源的开发殆尽,海洋资源的开发和利用对经济增长的