面向统计机器翻译的中文分词研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:j2eeweb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译的首要工作是获取双语词对齐信息,而词对齐需要从词边界清晰的双语语料中训练才能得到。因此,在涉及中文的统计机器翻译系统中,首先需要对中文语料进行分词处理。可以说,中文分词是中文统计机器翻译的基础工作之一,分词的结果很大程度上影响着统计机器翻译系统的性能。如何能找到一种适应统计机器翻译任务的分词方法,已经成为一个重要研究方向。  传统的中文分词方法都仅对单语知识进行学习,根据中文语言的特点和语法知识来对中文句子进行分词。这种分词方法可以胜任单语自然语言处理任务,但应对统计机器翻译这种双语自然语言处理任务时,往往因双语语言差异而会产生一定的不适应,从而影响统计机器翻译系统的性能。  针对上述问题,有些学者提出了使用双语知识进行分词的方法,首先对双语语料进行对齐训练,再从对齐结果中学习双语知识进行分词。这种分词方法取得了一定的效果,但由于受到词对齐质量的制约,分词结果中词语的质量不尽人意,影响了统计机器翻译系统的性能;同时,这种分词方法无法对翻译系统中的待翻译语料进行分词(待翻译语料都是仅含中文单语句子的语料),因此他们的方法不能算是完整的分词方法。  本文在借鉴了前人工作的基础上,提出了一种结合中文单语知识和中英双语语料知识的中文分词方法,在保证了分词准确率的基础上使分词结果更适应于统计机器翻译系统的要求。在本文的方法中,首先将双语平行语料中的中文语料按字进行切分,利用双语语料进行中英“字-词”对齐训练。然后利用对齐可信度的概念,将可信的中英“多对一”对齐中的中文部分合并成词,得到可信对齐分词结果。最后对使用可信对齐方法无法判断分词的字符,则使用其在单语分词方法中的结果作为最终分词结果。另外,针对测试语料等不易利用双语知识进行分词的语料,本文使用条件随机场模型结合单、双语知识的分词结果训练得到了一个包含单、双语知识的分词模型,并将此模型用于统计机器翻译所有语料的分词工作之中。  与传统分词方法相比,本文提出的分词模型包含单、双语知识信息,使分词结果中的汉语词与英文单词间的对应关系更加明确。在基于短语的统计机器翻译实验中,本文方法使统计机器翻译系统的性能得到了提升。
其他文献
随着计算机技术的发展,软件规模的不断扩大,软件的安全问题正成为业界日益关注的焦点。导致软件安全问题的根本原因是其中存在的脆弱性,而脆弱性的检测作为保障软件安全的有效手
操作系统是最基础的计算机软件之一,其可靠性、安全性、性能等对于整个系统的正常高效运转至关重要。操作系统的架构可以是宏内核的,也可以是微内核的。相比于宏内核操作系统
软件功能在不断增强的同时,软件的庞杂程度也在提高,这样就无可避免的带来软件漏洞。软件漏洞攻击带来的巨大经济损失,迫切需要我们对各种漏洞攻击的方式进行剖析,从而深刻理解攻
多媒体包括文字、图像、图形、音频、视频等多种媒体形式。多媒体处理技术相应的涵盖了以上各种媒体形式及其集合的相关处理技术。本报告主要汇报四个多媒体处理技术,包括两
强化学习在实际应用中通常会遇到一些问题,这些问题主要体现在泛化能力,学习速率以及学习的复用等方面。目前在强化学习中常采用函数估计和迁移方法来解决这些问题。而在函数估
在计算机网络技术和无线通信技术的大力推动下,互联网正在朝数据通信网络、蜂窝无线网络和广播电视网络三网融合的方向演进,伴随出现了异构网络环境、多模通信终端和多样性的应
局部特征在计算机视觉领域有着广泛的应用,相对于整体特征,局部特征标记出了图像中的重要区域,将图像信息用这些区域来表示,能够在表示图像局部重要信息的同时,节约了应用时的计算
随着互联网技术的蓬勃发展、网络互动社区等新兴应用的日益丰富以及企业信息化建设的高速发展,互联网社区用户数量急剧膨胀,各种新的需求和应用形式不断涌现,企业每天产生的各种
互联网的飞速发展使得其中的信息呈爆炸性增长,但互联网中的信息由于其本身的无结构性使人们很难找到自己有用的资源。如谷歌、百度等通用搜索引擎为我们提供大量的信息,但其中