论文部分内容阅读
语言模型是自然语言处理的基础任务,它为语音识别、词性标注、信息抽取、自动问答、文本挖掘、机器翻译等众多自然语言处理综合应用提供了至关重要的支持作用。其中,基于统计的N-gram语言模型经过学者们十几年的研究,已经成为一项非常成熟的应用技术。近年来,由于深度神经网络方法的兴起,神经网络语言模型取得了令人瞩目的成绩,大有取代传统基于统计语言模型的趋势。同时,在民族交流日益频繁及民族融合日益紧密的今天,维语、蒙语等少数民族语言,以及韩语、日语、芬兰语、土耳其语等小语种语言的地位显得愈发重要。这些语言同属于语言学中的黏着语,黏着语通过在名词、动词等词根粘加上不同的词缀来表达不同的语法功能。通过这种方式,形态变化最多可达数百种,甚至上千种,且为黏着语独有的语言现象。本文针对黏着语特有的语言现象,利用深度神经网络的方法,旨在弥补传统语言模型不足,进一步提高神经网络语言模型在黏着语上的描述能力。 具体的说,本文研究的内容主要如下: 第一,提出了一种融合词素信息的构建黏着语语言模型的方法。目前主流方法中都是以词作为最小的语义单元。对于黏着语来说,这种表示方式忽略了词干词缀之间的高聚合关系,只关注了词语边界的关系,且无法处理黏着语中层出不穷的未登录词。在黏着语中,词素是比词更细粒度的单元,因此本文提出将黏着语中的词素作为最小语义单元,在传统的神经网络语言模型的基础上,将词素向量融合进整个语言模型的训练流程中。其中词素向量通过改进Word2Vec中的CBOW模型和Skip-gram模型训练得到,作为神经网络语言模型初始化参数。融合词素向量后既能保留传统神经网络语言模型词与词之间的关系,又能充分利用词素信息来提高语言模型的描述能力。实验结果证明该方法可以有效降低语言模型在黏着语上的困惑度,说明融合词素信息有利于语言模型的表达。 第二,研究了将注意力机制引入到黏着语语言模型中的方法。在Encoder-Decoder框架下,源端句子被压缩成一个向量表示,即源端所有单词对目标端每一个单词影响权重是一致的。但实际中单词间由于语义、语法等的联系,这种关系权重应该是不一致的。注意力机制被用来解决这个问题。在黏着语语言模型任务中,文字序列是依次生成的,前面历史中的词以及相应词素对当前词的影响权重其实也是不同的。因此本文在词和词素两个粒度,设计不同的网络结构,通过引入注意力机制来调节影响权重。实验证明引入注意力机制后,语言模型的表达能力有大幅度的提高。 第三,研究了针对黏着语词内结构进行建模的方法,让不同类型的神经网络算法自动深入地研究黏着语的构词规律。黏着语的词干和词缀的结合规律是语法关系的体现,这种语法关系在之前的方法中并没有被很好地建模。因此本文提出利用卷积神经网络挖掘词干词缀之间的局部相关信息的方法,同时也提出利用循环神经网络去刻画词干词缀顺序组合时的先后序列信息的方法。利用这些额外的词内结构信息降低了黏着语语言模型的困惑度。最后在循环神经网络建模的基础上,通过融合注意力机制及替换基础模块进行模型优化。