论文部分内容阅读
沟通是人类社会生活的润滑剂,良好的沟通可以提高工作效率,促进社会和谐发展。而我们能良好沟通的前提是我们懂得对方的语言。中国是一个多民族多语言的国家。很多时候,两个语言不同、又没学过对方语言的人很难直接沟通。为了促进各民族之间的相互了解,我们有必要研究各民族语言间的翻译。同时还能保护和发扬少数民族传统文化,助力早日实现伟大复兴的中国梦。彝族是分布在我国西南地区的一个少数民族,彝文也是我国的古老文字之一。为了解决彝族地区民族融合过程中存在的交流沟通困难问题,促进彝族地区的经济文化发展。同时为了更好地发扬优秀的彝族传统文化。借助近几年发展迅速的深度学习技术,本文开展了彝文相关的神经机器翻译研究工作,实现了从彝语到汉语的神经机器翻译。本文的主要工作分为以下三个部分:(1)为了完成彝汉神经机器翻译任务,本文系统学习了神经机器翻译相关技术。鉴于没有相关的彝文语料库。本文收集整理彝文资料做成20万的彝语单语语料,基于词和彝文古诗的7万对彝汉互译语料库。然后用收集的彝文词汇在彝文单语语料上统计词频制作词频表,根据频数权重抽取彝文词汇构造带标签的伪彝文句子,训练双向LSTM模型用来预测句子标签,最后结合Viterbi算法输出最优的切分方案,实现基于深度学习的彝文分词。(2)根据近几年有关小语种神经机器翻译的研究,本文提出了基于Transformer XL的双编码器双解码器的彝汉翻译模型。翻译模型的编码器、解码器有一对来自Transformer XL,另一个子编码器是双向LSTM,子解码器是结合注意力机制的LSTM。同时为了更好捕获语序信息,编码器端引入基于复值的词嵌入法。针对彝汉语间没有平行语料库,但有部分基于词和彝文古诗的彝汉互译语料的现象,本文用后者采用弱监督的学习方法来初始化翻译模型。为了验证本文提出的模型、引入的词嵌入法以及采用的模型训练方法的有效性,同时为了与统计机器翻译做对比,本文做了四组对比试验。(3)实现彝语到汉语的翻译系统。结合翻译对比实验,选取本文提出的结合复值词嵌入法、采用弱监督学习方法的翻译模型,实现了基于B/S架构的翻译系统。详细介绍了系统总体架构和各功能模块、实现过程及系统部署,并进行系统稳定性测试和翻译效果展示。