基于统计的翻译等价对的自动抽取

来源 :南京大学 | 被引量 : 0次 | 上传用户:a6532460
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有关翻译等价对的自动获取对于改进统计机器翻译的质量,以及对跨语言检索,自动问答等领域的实际应用都有着非常重要的意义。   基于统计的翻译等价对的自动抽取一般有两种典型的方法。一种是基于假设-检验的,另一种是基于统计机器翻译的。   基于假设-检验的翻译等价对抽取方法虽然具有计算简单且可扩展性好的优点,但是这种方法中存在的间接依赖问题严重地影响了抽取得到翻译等价对的正确率。基于此问题,本文提出了一种基于迭代算法的翻译等价对自动抽取方法。基于迭代的抽取有效地解决了间接依赖的问题。在本文进行的有关片假名的翻译等价自动抽取的实验中,结果表明了:无论采用什么样的关联度计算模型,用基于迭代算法的翻译等价对自动抽取方法抽取得到的正确率都明显好于传统的基于假设-检验的方法。   基于统计机器翻译的翻译等价对的自动抽取方法的研究对于改进统计机器翻译系统有着非常重要的意义。尤其活跃的一子课题是有关命名实体翻译等价对的自动抽取方面的工作。在过去的几年里,双语字典查找,音译模型等方法先后被提出。另一种极具价值的方法是从平行语料库中自动抽取有关命名实体的翻译等价对,现有的方法要求预先对双语语料库的两种语言文本进行命名实体标注。在本文中,提出了一种只要求对语料库中源语言进行了命名实体标注,目标语言不需标注,然后利用统计机器翻译系统训练得到的HMM词对齐结果来抽取有关命名实体翻译等价对的方法。在实验中,把中文作为源语言,英文作为目标语言。实验结果表明用本文的方法,即使在对齐模型只是部分准确的情况下,也得到了较高正确率的命名实体翻译等价对。
其他文献
网格技术虽然有着非常广阔的前景和发展空间,但是对它的许多研究还处在起步阶段,还有许多关键技术问题需要解决。经过二十多年的研究和发展,网格计算技术取得了一系列重大的
由于网络技术与移动通信技术的发展,基于移动计算设备的应用已经越来越普及。人们广泛地使用个人数字助理(PDA,Personal Digital Assistant),、智能电话等移动手持设备随时随
当今,用户需求频繁变化,对软件系统灵活性的期望日益增长。但是,大多数系统由于自身设计的局限性,不能及时满足用户期望,导致软件满意度降低;与此同时,开发者却疲于满足不同用户的个
软件成本估算的方法和技术众多且各有千秋,没有一种方法被证明在各种情况下的估算都是最精确的。组合估算是一种非常有效的估算方法,它避免了去选择一种单一的最优的估算方法,而
作为一种全新的信息获取和处理技术,无线传感器网络综合了传感器技术,微机电系统和无线网络技术。它能够用来进行实时监测、感知和采集各种环境或监测对象的信息并对其进行处
互联网的飞速发展极大地方便了人们从网络上获取多媒体数据,同时也给版权保护这一问题提出了新的挑战。数字水印技术作为一种新的有效数字产品版权保护的技术手段,是目前国际
随着软件产业的迅速发展,软件系统的功能和结构日益复杂,如何有效地理解复杂软件系统的结构,理解其在生命周期里的变化规律,成为人们进行软件开发、再工程、维护和重构时关注的一
随着信息技术的发展,政府、企业的日常工作都离不开信息系统。互联网技术的发展使得系统在开发和维护中产生的漏洞暴露在大量的攻击和入侵事件中,一旦数据因系统入侵受破坏将造
随着国民经济的快速发展,国内汽车拥有量与日俱增,也引发了越来越多地交通事故和道路拥堵,造成了巨大的人员伤亡和经济损失。实践证明,采用交通事件检测系统对交通事件进行快
句法分析是自然语言处理的一个基本问题。许多自然语言处理任务,如机器翻译、问答系统、信息检索、信息抽取等往往需要依赖句法分析的精确结果才能最终获得满意的解决。总体上