基于神经网络概率模型的词稀疏表示学习及其应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:fengmiaoli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词的特征表示是自然语言处理的一个基础问题,广泛地应用于自然语言处理的各个任务之中,如词性标注、句法分析、依存句法分析、语义分析以及机器翻译等.好的词特征表示可以大大提升任务的求解性能,因此如何从数据中学习到好的词特征表示是提升自然语言处理任务的性能的一个关键问题.  早期的词特征表示依赖专家进行人工特征抽取,往往只能关注到某些显式的方面,所抽取的特征的表达能力具有很大的局限性.在大数据的背景下,从海量、复杂、多变的数据中人工抽取词的特征表示变得更加困难.因而迫切需要自动学习词特征表示的方法.  近年来,随着深度学习的兴起,研究者们开始进行基于神经网络概率模型的词表示学习方法的研究该类方法借鉴了深度学习的思想,直接从大量纯文本语料中学习词的特征表示,以刻画词丰富的语法和语义信息,从而显著地提升自然语言处理中各种任务求解的性能  但是现有的词表示学习方法不能很好地利用人们对自然语言中词的先验知识来更好的约束求解词表示学习模型本文根据语言学总结的词之间的组合关系和聚类关系作为词表示学习的先验,分别提出了两个假设来约束词的表示学习,获得词的稀疏表示  稀疏表示,相对于稠密表示,被认为具有更好的可解释性,且通常可以根据稀疏性设计在时间或空间上都更加高效的算法.另外从仿生的角度讲,科学家普遍认为人脑是以稀疏的方式组织和存储信息的学习词的稀疏表示有利于揭示人类处理语言信息的原理,并服务于设计更加智能的自然语言处理系统.  本文借鉴了图像、语音处理领域稀疏表示学习的方法和原理,以及现有的词向量学习方法.提出了两种词的稀疏表示方法与图像、语音等信号不同,自然语言的词作为一个符号没有自然的向量表示,因此不能直接使用字典学习等算法学习词的稀疏表示一种方法是先学习词的稠密表示,然后利用字典学习的基本思想,将这些稠密表示转化为稀疏表示,另一种方法就是直接利用词稠密表示模型的原理和字典学习的原理,直接设计模型学习词的稀疏表示.具体工作如下.  一、针对SKIPGRAM模型使用的采样方法会获得大量噪声或者无意义的样例作为训练数据这一问题,提出了一种从句子依存树上抽取训练数据的方法.同时,根据抽取出的训练数据的特点,设计了一种基于能量的词向量学习模型,获取词的稠密向量表示设计了实验对学习到的词向量进行质量评估,结果显示,在相似词检索和类比词推理两个任务上,提出的模型都获得了比基准模型SKIPGRAM更优的结果.  二、通过对上一个工作获取的稠密词向量的组合结构的分析,以及对语言学中的组合关系概念的分析,提出了“低频词可以被高频词以稀疏的线性组合的方式表示”的假设,并基于此假设提出了一个学习词的稀疏表示的方法.该方法通过最小化线性重构误差,将稠密词表示转化为稀疏表示.实验评估显示,学习到的稀疏表示可以有效地刻画词之间的相似性及组合结构.  三、通过对语言学中聚合关系的分析,提出了“词是由少量的一些基本元构成”的假设,并根据该假设提出了一个直接从文本数据学习词的稀疏表示的方法.该模型不需要一个流水线过程进行词的稀疏表示学习,降低了词的稀疏结构丢失的风险.为了提高学习的时间效率,提出了一个基于噪扰对比估计的学习算法.该算法通过区分真实数据与采样得到的“负样例”进行学习.在采样的负样例较少的情况下,为了使模型能够有效地进行学习,提出了一种基于聚类的动态更新采样分布的方法实验显示,获得的词稀疏表示很好地捕获了词之间的类比推理信息以及聚类信息,并且具有很好的可解释性.  四、应用所获得的稀疏表示,提出了一种神经网络语言模型压缩方法.实验表明,该压缩方法显著地减少了模型参数规模,且压缩的模型的精度,与对应的未压缩版木不下降,甚至还有一定的提升.  总之,本文提出了学习词的稀疏表示的方法,并对获得的词稀疏表示在相似词检索和类比词检索等任务上进行了实验评估,获得了优秀的性能;同时,还对获得的稀疏表示的可解释性方面进行了定性和定量评估,结果显示稀疏表示具有更好的可解释性最后,应用词的稀疏表示对神经网络语言模型进行了压缩,获得了很好的压缩效果.因此,词的稀疏表示可以作为很好的词特征向量,应用于后继的自然语言处理任务中。
其他文献
目前数据转换在功能、效率、以及支持自动转换等方面存在不足,作者对转换方法、数据转换的优先次序算法、XML与关系模式之间的自动转换算法等进行了研究.在数据清理方面,作者
现代道路运输管理是一个复杂的系统分析、管理、控制与决策过程,它需要强有力的信息支撑系统沟通各个独立的业务操作处理系统,以实现现代道路运输科学化管理所需要的综合分析
本论文讨论了几类基于Zakagi-Sugeno(T-S)模糊模型的不确定非线性动态系统的模糊控制问题,利用线性矩阵不等式(LMI)方法和Lyapunov稳定性理论,提出了几种保证闭环系统稳定的
本论文涉及的课题是“基于智能体技术的入侵检测系统体系结构的研究”,提出并深入研究了一个基于智能体技术的入侵检测系统的体系结构,构造一个比较理想的原型系统。本文陈述
并行处理系统是当今计算机科学研究的前沿。互连网络作为并行处理系统的主干,它的性质对整个网络的性能起着决定性作用。新型并行机的研制依赖于对新型互连网络的设计以及对互
数字全息数据存储(digital holographic data storage,DHDS)是一种基于页的光存储技术,由于同时具有高速的数据传输速率、巨大的存储容量和短暂的访问响应时间,极有可能成为
高校研究室不同于常规意义上的软件开发组织,在软件开发过程上有其自身的特点和要求,主要有创新性强造成的变化、修改较多,人员新手多,人员流动大,重技术轻文档等问题。成熟的软件
在计算机科学领域,数据仓库技术代表了计算机技术一个重要的发展方向,与其相关的研究工作引起了人们广泛的关注和重视。数据仓库技术经过二十多年的发展,已经开始在很多领域
随着现代化电器设备的使用,变频设备引入,对电网进行切割,从而产生杂质波,即谐波。谐波恶化了电能质量指标,污染整个电网环境,因而降低了电网的可靠性,其危害不可小视。本课题对于电
本课题来源于四川省青年软件创新工程项目:基于广域网的分布式容错存储平台。研究和开发一种网络容错存储平台软件,主要用于数据的高可靠存储、远程备份和远程灾难恢复。本文