论文部分内容阅读
移动互联网时代,不论是长篇见解还是一句话甚至一个表情都可以自由的发布,对大众用户来讲短文本是主流的表达方式。海量带有个人心情、观点、叙事等的短文本与用户之间基于这些内容的交流互动,是当今社会在网络中的影像,高效的挖掘这些短文本中丰富的用户情感有较高的应用价值。 短文本最典型的特点就是“短”,使用传统的字、词、n-gram等作为特征进行分析,会造成文本特征稀疏、计算复杂,难以取得较好的情感分类效果。同时这类文本还有一个非常重要的特点:语言随意,给情感分析带来了挑战。随着神经网络技术的快速发展,分布式词表达技术在各个研究和应用领域取得了优异的成果,它能够从大规模无标注语料中学习获得包含丰富语义信息的词语的低维向量表示,是解决短文本分类特征稀疏、语言不规范等问题的有效方法。本文借助词的分布式表达和神经网络分类模型的优良特性研究短文本情感分类问题,根据分类任务的特点,对以下三个问题进行了研究: 1.基于情感词向量的通用短文本情感分类。词向量采用连续实数域上的固定维数向量来表示词汇,包含词汇丰富的语义信息,适合解决短文本特征稀疏问题。一般词向量学习模型的目标是使得具有相似上下文的词语的词向量也越相近,但上下文相似的词语的情感却并不一定相近。直接使用词向量构建文本特征表达作为分类模型输入时不够准确的,需要对词向量进行情感改进。现有词向量情感改进的研究较少且多依赖于大量的情感语料。本文针对词向量学习过程忽略情感信息而情感语义对情感分类非常重要的问题,将情感信息补充到词向量学习过程中,模型保留了原有词向量技术从大规模无标注语料中挖掘语义信息的优势,又能够有效的利用有限的情感资源,学习得到语义与情感信息丰富的词向量,应用到短文本情感分类任务中。 2.属性(aspect)依赖的短文本情感分类。消费者在电商平台或者点评网站对商品或服务发表的评价是一类非常有价值的短文本,多是针对商品或服务特定的属性进行展开的。然而对于不同的属性,同一个情感词所表达的情感倾向可能不同,通常并无情感的词语在某属性下也可能有情感倾向。因此仅对词向量做情感补充是不够的,需要针对不同的属性学习词语的多个情感词向量表达。本文对词向量技术在属性依赖的情感分类问题中的应用进行了探索,提出了一个同时建模“词-属性”上下文、情感和词的向量学习模型,学习针对属性的情感向量表达和词的通用表达,并将包含了属性和情感信息的词向量表达应用到点评文本的情感分类任务中。模型能够在捕获属性依赖的同时,通过通用的无属性关联的语义信息来避免“词-属性”对的稀疏性和属性错误指定带来的影响。 3.对象(target)依赖的短文本情感分类。多个对象常被同时讨论,文本整体情感分类结果与针对给定对象的情感倾向可能不一致。词向量的优良语义特性对于对象依赖的情感分类任务同样有效,特别是通过向量距离量化语义关联性对挖掘对象相关内容有极大的优势。对象级情感分类的关注点在于给定对象相关的内容,注意力机制适合解决该任务。现有基于注意力的方法多是单一网络结构建模输入文本,多偏重于对象相关语义的获取而忽略了整体语义的建模。同时,对象级的情感资源少且标注难度高,无法应用多层的深度学习结构实现全自动挖掘,需引入外部知识进行信息扩充。本文引入词性信息,通过长短时记忆神经网络建模序列特征来构建对象注意力,将注意力融入到卷积神经网络结构中分析关于给定对象的情感倾向。词性信息有助于捕获与对象有修饰关系的内容,且有助于弱化内容和距离相近但无搭配关系的句子成分的影响。结合长短时记忆神经网络和卷积神经网络结构建模文本,更好的同时建模句子整体语义与对象相关语义,提升了对象级情感分类效果。 综上,本文为提升短文本情感分类效果,将分布式词表达和神经网络结构应用到三类情感分类任务场景下,包括:(1)将有限的情感资源补充到词向量学习过程中,将学习得到情感词向量应用到通用短文本情感分类任务中;(2)利用“词-属性”上下文、情感和词,学习词对于不同属性的多个向量表达,解决属性依赖短文本情感分类任务中“一个词针对不同属性可能有不同情感倾向”的问题;(3)引入词性信息,通过LSTM构建对象注意力机制,将注意力融合到CNN结构中解决对象依赖的短文本情感分类问题。