【摘 要】
:
机器翻译是指运用特定的计算机程序将一种自然语言转换为另一种自然语言的过程。自上世纪50年代提出机器翻译的思想以来,机器翻译领域的研究经历了从规则到统计再到深度学习的理论和技术的多次迭代,是整个人工智能领域中最为活跃的研究方向,取得了巨大的进展,并且在未来有广阔的发展前景。藏汉机器翻译研究作为藏语自然语言处理领域中主要的课题之一,一直是我国少数民族语言信息化研究的重要工作。本文着眼于藏汉机器翻译研究
论文部分内容阅读
机器翻译是指运用特定的计算机程序将一种自然语言转换为另一种自然语言的过程。自上世纪50年代提出机器翻译的思想以来,机器翻译领域的研究经历了从规则到统计再到深度学习的理论和技术的多次迭代,是整个人工智能领域中最为活跃的研究方向,取得了巨大的进展,并且在未来有广阔的发展前景。藏汉机器翻译研究作为藏语自然语言处理领域中主要的课题之一,一直是我国少数民族语言信息化研究的重要工作。本文着眼于藏汉机器翻译研究中的数据稀疏问题,在Transformer神经网络翻译模型基础上,运用百万句子单语数据大规模迭代式回译策略和译文自动筛选机制,使最终的模型比基准模型有4个BLEU值的提升,证实了回译方法的有效性。除此之外,论文还实现了基于短语的统计翻译模型和三类基于主流神经网络构架的藏汉机器翻译基准模型,并对面向神经网络藏汉机器翻译的分词方法进行了研究分析。本篇论文的主要内容包括:·研究和分析了面向神经网络的藏汉机器翻译的分词方法,以实验方式证实了基于字节对编码的子词分词模型有最好的表现;·实现了用于辨别藏汉句对翻译等效性的端对端分类器;·结合翻译等效性的分类器和大规模对偶迭代式的回译策略,实现了藏汉翻译在稀疏资源条件下使用单语数据提升神经网络机器翻译性能的有效模型。
其他文献
纳米材料由于独特的量子效应在光电领域有着良好的应用前景。其中InP纳米材料由于具有和CdSe相近的能带结构、较低的毒性以及可调谐的覆盖可见光和近红外波段的发光波长成为
前言 皮肤恶性黑色素瘤恶性度高,预后差,生物学行为受多种因素影响。淋巴结状态是决定恶性黑色素瘤预后的最重要因素,而肿瘤厚度与淋巴结转移率相关,关于是否做选择性区域淋巴
为了降低车架质量,同时保证车架的强度、刚度和动态性能,采用了多目标拓扑优化方法进行设计。首先进行了原车架有限元分析,并建立了车架拓扑优化模型,采用折衷规划方法构造优
在高校中,教学秘书为教学管理服务带来潜移默化的作用,随国内高等院校的发展逐步提升,教学秘书的工作压力随之增加,心理健康问题成为影响教学管理服务质量的关键因素。本文旨
温室气体排放清单作为制定减排政策的数据基础和评估减排效果的重要指标,其核算和编制过程已成为温室气体减排工作中至关重要的一部分。此外,由于城市具有人口聚集度高、能源
“家有读书郎,全家跟着忙。”陪读是一种普遍的社会现象,受到全社会的普遍关注。此前,在各式陪读中,“高考陪读”的媒体曝光率最高,尤其是以安徽毛坦厂中学为背景的陪读纪录片在湖南卫视、上海纪实等媒体播出,表现了高三陪读家长的艰辛,让陪读家长这一形象深入人心。但是,反映昆明乃至云南的陪读现象的纪录片并不多见。纪录片《陪读》,就是立足昆明,专门表现云南陪读家长艰辛付出的纪录片。该片采用跟拍纪实采访的方式,记
医疗卫生行业是一个相对特殊的非营利性行业,随着医疗卫生事业改革的不断推进、公立医院药品零差价政策的不断推行,医院的经营环境已经发生了天翻地覆的变化,医院与医院之间
目的探讨高效建立人多能性细胞的方法。方法利用经典的Yamanaka方法及Oct4病毒的重复感染,诱导人皮肤成纤维细胞为诱导的多能性干(iPS)细胞。通过AKP染色及分化能力,验证其多
精准医疗理念对临床药学研究生教学提出了更高的要求,本文从理论培训、思维教学、技能实践、检索能力和人文素质教育5个方面,探讨了如何以精准药学服务为抓手,提高临床药学研
目的 研究7种人实体肿瘤细胞株(GLC、YTMLC、BIU-87、T-24,U-251、Tca-8113和KB)体外培养上清液中G-CSF的分泌水平及外源性rhG-CSF对上述细胞增殖的影响,从而为临床应用rhG-CS