基于分布式词表达的短文本情感分类研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:buyaowenwo123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网时代,不论是长篇见解还是一句话甚至一个表情都可以自由的发布,对大众用户来讲短文本是主流的表达方式。海量带有个人心情、观点、叙事等的短文本与用户之间基于这些内容的交流互动,是当今社会在网络中的影像,高效的挖掘这些短文本中丰富的用户情感有较高的应用价值。  短文本最典型的特点就是“短”,使用传统的字、词、n-gram等作为特征进行分析,会造成文本特征稀疏、计算复杂,难以取得较好的情感分类效果。同时这类文本还有一个非常重要的特点:语言随意,给情感分析带来了挑战。随着神经网络技术的快速发展,分布式词表达技术在各个研究和应用领域取得了优异的成果,它能够从大规模无标注语料中学习获得包含丰富语义信息的词语的低维向量表示,是解决短文本分类特征稀疏、语言不规范等问题的有效方法。本文借助词的分布式表达和神经网络分类模型的优良特性研究短文本情感分类问题,根据分类任务的特点,对以下三个问题进行了研究:  1.基于情感词向量的通用短文本情感分类。词向量采用连续实数域上的固定维数向量来表示词汇,包含词汇丰富的语义信息,适合解决短文本特征稀疏问题。一般词向量学习模型的目标是使得具有相似上下文的词语的词向量也越相近,但上下文相似的词语的情感却并不一定相近。直接使用词向量构建文本特征表达作为分类模型输入时不够准确的,需要对词向量进行情感改进。现有词向量情感改进的研究较少且多依赖于大量的情感语料。本文针对词向量学习过程忽略情感信息而情感语义对情感分类非常重要的问题,将情感信息补充到词向量学习过程中,模型保留了原有词向量技术从大规模无标注语料中挖掘语义信息的优势,又能够有效的利用有限的情感资源,学习得到语义与情感信息丰富的词向量,应用到短文本情感分类任务中。  2.属性(aspect)依赖的短文本情感分类。消费者在电商平台或者点评网站对商品或服务发表的评价是一类非常有价值的短文本,多是针对商品或服务特定的属性进行展开的。然而对于不同的属性,同一个情感词所表达的情感倾向可能不同,通常并无情感的词语在某属性下也可能有情感倾向。因此仅对词向量做情感补充是不够的,需要针对不同的属性学习词语的多个情感词向量表达。本文对词向量技术在属性依赖的情感分类问题中的应用进行了探索,提出了一个同时建模“词-属性”上下文、情感和词的向量学习模型,学习针对属性的情感向量表达和词的通用表达,并将包含了属性和情感信息的词向量表达应用到点评文本的情感分类任务中。模型能够在捕获属性依赖的同时,通过通用的无属性关联的语义信息来避免“词-属性”对的稀疏性和属性错误指定带来的影响。  3.对象(target)依赖的短文本情感分类。多个对象常被同时讨论,文本整体情感分类结果与针对给定对象的情感倾向可能不一致。词向量的优良语义特性对于对象依赖的情感分类任务同样有效,特别是通过向量距离量化语义关联性对挖掘对象相关内容有极大的优势。对象级情感分类的关注点在于给定对象相关的内容,注意力机制适合解决该任务。现有基于注意力的方法多是单一网络结构建模输入文本,多偏重于对象相关语义的获取而忽略了整体语义的建模。同时,对象级的情感资源少且标注难度高,无法应用多层的深度学习结构实现全自动挖掘,需引入外部知识进行信息扩充。本文引入词性信息,通过长短时记忆神经网络建模序列特征来构建对象注意力,将注意力融入到卷积神经网络结构中分析关于给定对象的情感倾向。词性信息有助于捕获与对象有修饰关系的内容,且有助于弱化内容和距离相近但无搭配关系的句子成分的影响。结合长短时记忆神经网络和卷积神经网络结构建模文本,更好的同时建模句子整体语义与对象相关语义,提升了对象级情感分类效果。  综上,本文为提升短文本情感分类效果,将分布式词表达和神经网络结构应用到三类情感分类任务场景下,包括:(1)将有限的情感资源补充到词向量学习过程中,将学习得到情感词向量应用到通用短文本情感分类任务中;(2)利用“词-属性”上下文、情感和词,学习词对于不同属性的多个向量表达,解决属性依赖短文本情感分类任务中“一个词针对不同属性可能有不同情感倾向”的问题;(3)引入词性信息,通过LSTM构建对象注意力机制,将注意力融合到CNN结构中解决对象依赖的短文本情感分类问题。
其他文献
计算机技术和宽带网络技术的迅猛发展以及存储市场的巨大需求,极大地推动了分布式存储技术的进步,同时也给现有的存储系统不断地提出各种新的要求。对分布式存储系统而言,系统应
本文介绍了框架的相关技术和MicrosoftNET带来的各种新技术,指出了传统的应用软件开发中单层及两层的各种局限性,详细论述了多层框架。  在对框架技术进行深入研究的基础上,借
近年来随着普适计算技术的快速发展,越来越多具有通信和计算能力的设备出现在人们的生活和工作中。在普适环境中由于计算复杂性和移动性的增加,许多任务需要多个设备协同在一
图像配准是对取自不同时间、不同视角或不同传感器的同一场景的两幅图像或者多幅图像匹配的过程。它是所有图像分析中的一个关键预处理步骤。图像配准技术主要应用在以下三个
在基于知识的模糊分类系统的应用之中,构造合适的模糊分类规则集是关键的问题。一方面,要求分类规则集能提供较高的准确性,另一方面,对于模糊规则集中的模糊集合要求具有良好的可
随着以Ajax(Asynchronous JavaScript And XML)为技术特征的Web2.0应用的发展,Ajax正受到越来越多人的关注。Ajax实现了异步机制,按照“按需存取”的原则,局部刷新页面,给用户带
如何准确地定位目标节点,从而快速有效地搜索到目标资源一直是P2P网络研究中的关键问题,是决定P2P网络系统性能的重要因素。P2P网络资源搜索技术的有效性主要取决于系统的拓扑
远程教育是现代化教学的重要组成要素。因此,设计一个能够满足和适应社会发展的远程教育模型,是现代化教育的迫切需求。本文基于教育部中小学万名班主任国家级远程培训平台,研究
在知识经济时代,信息与知识占企业资源的主导地位,直接关系到企业的创造能力、生产力和企业效益。以工作流管理为核心的监督管理系统成为油田公司的首选。LotusNotes/Domino能
视频监控系统在各行各业有着广泛的应用,同时也面临着诸多的问题需要解决。本文着重研究视频监控的运营级平台的设计问题、智能监控中复杂背景下目标发现和跟踪问题、视频监控