面向统计机器翻译的双语对齐方法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：teamworkhlc

【摘要】

：

随着全球化进程的加快，人际交往与信息交流中因为语言分歧带来的阻碍日益突出，克服语言障碍的问题就显得愈发重要，而利用计算机技术实现不同语言之间的自动化翻译，是解决这一问题

【作者】

：

周玉

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2008年期

【关键词】

：

统计机器翻译语料预处理词语对齐短语对过滤短语对抽取信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着全球化进程的加快，人际交往与信息交流中因为语言分歧带来的阻碍日益突出，克服语言障碍的问题就显得愈发重要，而利用计算机技术实现不同语言之间的自动化翻译，是解决这一问题的重要途径。目前在机器翻译领域内统计方法占据着主导地位，而统计方法之中则以基于短语的翻译模型较为成熟。众所周知，双语词语对齐和短语对抽取的质量始终是影响翻译系统性能的重要因素。同时，双语词语对齐技术也是支持其他统计翻译模型和实现跨语言信息检索的基础性关键技术。本论文的选题因而具有重要的理论意义和实用价值。　　本论文的研究重点在于翻译知识的自动获取方法，通过大量的实验探讨了如何从训练语料中挖掘出更多的翻译知识，从而更好地为解码过程服务。论文的主要工作归纳如下：　　 (1)提出了利用后缀数组数据结构结合N元文法信息对训练语料进行过滤的方法，并用无贪婪扩展特征算法对过滤后的训练语料进行了预处理操作　　统计机器翻译质量的优劣在很大程度上依赖于训练数据的规模和质量，运用较为理想的训练数据对翻译模型的参数进行估计会更接近其真实值。对此，本文提出一种有效方法对原始训练语料进行预处理，以期获取我们所需的“集中、同质、精确”的训练语料。该方法在基于后缀数组数据结构的算法的基础上，结合N元文法信息对语料进行过滤和选择。然后，我们提出“无贪婪扩展特征算法”对过滤后的训练语料进行切割和重组处理，以求获得高精度的对齐工整的训练语料。　　 (2)提出并实现了一种多粒度的双语词对齐方法　　在统计翻译系统中几乎所有后续翻译知识的映射都建立在词语对齐基础上，因此词语对齐至关重要。本文提出了一种多粒度的词对齐算法，其主导思想是“分而治之”，即将词对齐限定在比较可靠的小范围内，以取代整句范围的搜索，在此基础上，利用对数线性模型融合不同粒度下的词对齐结果，这就较为充分地挖掘了训练句对的翻译知识，从而获得了更好词语对齐结果。　　 (3)提出并实现了一种基于多层过滤的短语对抽取方法　　短语翻译对是支撑统计机器翻译系统的重要的知识源，在众多的短语抽取方法中，最流行的是Franz J.Och提出的短语抽取方法和David Chiang在Franz J.Och方法上提出的改进的分层短语抽取算法，该类方法仅仅利用词对齐信息，简单有效；问题在于，随着语料规模的扩大，抽取的短语对数量急剧增加，这不仅使短语对的存储空间太大，而且加重了解码器的负担。为此，我们提出了一种基于多层过滤的短语对抽取方法，该方法能够直接根据当前句对的词对齐信息生成多组短语对，并且能够有效地实现短语对过滤，尤其能对空词的无限制扩展进行有效的控制。　　 (4)结合2007年的国际口语翻译评测任务(IWSLT2007)，分析了基于短语的翻译引擎(基准系统)中各模块的作用，并在汉英翻译评测中对本文提出的各种方法进行了检验。实验表明，上述方法都使基准系统的翻译性能在不同程度上有所提高。　　综上所述，本论文面向统计机器翻译在训练语料预处理、双语词语对齐、短语翻译对自动抽取等方面做了大量的实验、进行了深入的研究，有效地改进了现有实验系统的性能，为进一步探索新的翻译方法奠定了良好的基础。

其他文献

若干数字图像分割算法研究

图像分割是图像处理中一个基本而关键的环节，在进行特征提取识别之前，进行图像分割必不可少。根据图像信息的不同，目前对图像分割的研究主要分为:利用图像中灰度分布不连续区域

学位

数字图像分割算法变形模型神经网络

电熔镁炉嵌入式控制软件的研发

电熔镁砂是一种熔点高、抗氧化性和抗渣性强的高级耐火材料,被广泛用于航空航天、核工业、冶金等领域,其生产制备方法主要为电熔法,主要生产设备是电熔镁炉,主要控制目标是稳

学位

电熔镁炉嵌入式控制软件规则推理快速原型RTW

人脸活体检测中的关键问题研究

随着人脸识别技术的成熟及其商业化应用的普及，人脸识别系统面临着各种各样的挑战，特别是随着高清电子设备、3D打印等仿造手段的迅速发展与应用，人脸更容易以高清晰度照片、高清

学位

人脸活体检测双目图像主动红外光照RGB-D图像多光谱关联分析

图像特征提取与匹配

图像特征提取与匹配是计算机视觉中的一个关键问题，在目标检测、物体识别、三维重建、图像配准、图像理解等具体应用中发挥着重要作用。由于图像的成像条件和所记录的内容复杂

学位

区域特征点特征特征提取车轮轮廓钢圈轮廓计算机视觉图像特征匹配

基于不变集的混合系统研究与应用

混合系统研究是一个控制和计算机交叉学科新的研究方向,研究同时包括相互作用的连续变量和切换＼逻辑变量的复杂动态系统。混合系统源于实际的工程问题,它能更完整、更细致地刻

学位

混合系统混合系统不变集不变集动态行为动态行为优化控制优化控制无人直升机无人直升机约束优化约束优化

基于无线短程通讯的无线压力变送器的研究与实现

无线通讯技术进入工业行业的趋势已经无可置疑，诸多现场仪表已经慢慢开始无线化。在无线压力变送器中，无线短程通讯技术被引入到工业压力检测技术中，实现了工业现场压力采集仪表

学位

压力变送器无线短程通信zigbee数据采集卡

复杂系统中多Agent方法的研究和实施

能源是人类赖以生存和发展的物质基础。然而，随着全球能源形势日趋紧张，能源供需失衡的状况日趋严重。能源供需预测作为一类复杂系统，其复杂性主要体现在涌现性上，很难用传统方法

学位

能源供需预测Agent核心模块分层递阶结构响应速度

基于单周控制的三相光伏并网逆变器的研究

随着能源紧张和环境污染的日益加剧，太阳能凭借其独特的优势受到人们的高度重视，并网逆变器是太阳能发电系统中的关键设备，本文对基于单周控制的光伏并网逆变器进行了研究。

学位

并网逆变器太阳能发电系统三相光伏单周控制孤岛效应

基于Unisim的催化裂化分馏塔的仿真

催化裂化装置是炼厂中最复杂、最重要的一个系统，主要由反应一再生系统、分馏系统和吸收稳定系统三部分组成。其中，分馏系统作为承上启下的关键环节，其分馏效果对石油产品的质量

学位

催化裂化装置分馏塔多变量预测控制流程模拟

配电线路作业机器人目标识别与空间定位研究

随着机器人技术的发展，在配电线路中采用机器人代替人工进行更换跌落熔断器，拆、接引流线等作业已成为一种趋势。机器人工作在室外非结构化的环境下，采集的图像受天气、光照等因

学位

配电线路机器人目标识别空间定位

面向统计机器翻译的双语对齐方法研究

其他学术论文