论文部分内容阅读
词的特征表示是自然语言处理的一个基础问题,广泛地应用于自然语言处理的各个任务之中,如词性标注、句法分析、依存句法分析、语义分析以及机器翻译等.好的词特征表示可以大大提升任务的求解性能,因此如何从数据中学习到好的词特征表示是提升自然语言处理任务的性能的一个关键问题. 早期的词特征表示依赖专家进行人工特征抽取,往往只能关注到某些显式的方面,所抽取的特征的表达能力具有很大的局限性.在大数据的背景下,从海量、复杂、多变的数据中人工抽取词的特征表示变得更加困难.因而迫切需要自动学习词特征表示的方法. 近年来,随着深度学习的兴起,研究者们开始进行基于神经网络概率模型的词表示学习方法的研究该类方法借鉴了深度学习的思想,直接从大量纯文本语料中学习词的特征表示,以刻画词丰富的语法和语义信息,从而显著地提升自然语言处理中各种任务求解的性能 但是现有的词表示学习方法不能很好地利用人们对自然语言中词的先验知识来更好的约束求解词表示学习模型本文根据语言学总结的词之间的组合关系和聚类关系作为词表示学习的先验,分别提出了两个假设来约束词的表示学习,获得词的稀疏表示 稀疏表示,相对于稠密表示,被认为具有更好的可解释性,且通常可以根据稀疏性设计在时间或空间上都更加高效的算法.另外从仿生的角度讲,科学家普遍认为人脑是以稀疏的方式组织和存储信息的学习词的稀疏表示有利于揭示人类处理语言信息的原理,并服务于设计更加智能的自然语言处理系统. 本文借鉴了图像、语音处理领域稀疏表示学习的方法和原理,以及现有的词向量学习方法.提出了两种词的稀疏表示方法与图像、语音等信号不同,自然语言的词作为一个符号没有自然的向量表示,因此不能直接使用字典学习等算法学习词的稀疏表示一种方法是先学习词的稠密表示,然后利用字典学习的基本思想,将这些稠密表示转化为稀疏表示,另一种方法就是直接利用词稠密表示模型的原理和字典学习的原理,直接设计模型学习词的稀疏表示.具体工作如下. 一、针对SKIPGRAM模型使用的采样方法会获得大量噪声或者无意义的样例作为训练数据这一问题,提出了一种从句子依存树上抽取训练数据的方法.同时,根据抽取出的训练数据的特点,设计了一种基于能量的词向量学习模型,获取词的稠密向量表示设计了实验对学习到的词向量进行质量评估,结果显示,在相似词检索和类比词推理两个任务上,提出的模型都获得了比基准模型SKIPGRAM更优的结果. 二、通过对上一个工作获取的稠密词向量的组合结构的分析,以及对语言学中的组合关系概念的分析,提出了“低频词可以被高频词以稀疏的线性组合的方式表示”的假设,并基于此假设提出了一个学习词的稀疏表示的方法.该方法通过最小化线性重构误差,将稠密词表示转化为稀疏表示.实验评估显示,学习到的稀疏表示可以有效地刻画词之间的相似性及组合结构. 三、通过对语言学中聚合关系的分析,提出了“词是由少量的一些基本元构成”的假设,并根据该假设提出了一个直接从文本数据学习词的稀疏表示的方法.该模型不需要一个流水线过程进行词的稀疏表示学习,降低了词的稀疏结构丢失的风险.为了提高学习的时间效率,提出了一个基于噪扰对比估计的学习算法.该算法通过区分真实数据与采样得到的“负样例”进行学习.在采样的负样例较少的情况下,为了使模型能够有效地进行学习,提出了一种基于聚类的动态更新采样分布的方法实验显示,获得的词稀疏表示很好地捕获了词之间的类比推理信息以及聚类信息,并且具有很好的可解释性. 四、应用所获得的稀疏表示,提出了一种神经网络语言模型压缩方法.实验表明,该压缩方法显著地减少了模型参数规模,且压缩的模型的精度,与对应的未压缩版木不下降,甚至还有一定的提升. 总之,本文提出了学习词的稀疏表示的方法,并对获得的词稀疏表示在相似词检索和类比词检索等任务上进行了实验评估,获得了优秀的性能;同时,还对获得的稀疏表示的可解释性方面进行了定性和定量评估,结果显示稀疏表示具有更好的可解释性最后,应用词的稀疏表示对神经网络语言模型进行了压缩,获得了很好的压缩效果.因此,词的稀疏表示可以作为很好的词特征向量,应用于后继的自然语言处理任务中。