论文部分内容阅读
近些年来,互联网行业快速发展产生了大量的网络短文本,这些文本中隐含着丰富的信息,分析这些文本中所蕴含的情感信息对社会舆情分析、产品营销以及股价预测等相关领域的决策都起到了巨大的作用。因此,针对在线文本的情感分析研究是具有重要的实际指导意义。随着文本数据规模的不断增加,通过人工标注的方法对其进行分类往往需要大量的人力,同时短文本数据具有特征稀疏的特点,用传统方法进行分类效果并不理想。针对以上问题,提出了 一种基于注意力机制和支持向量机(Support Vector Machine,SVM)的门控循环单元网络(Gated Recurrent Unit networks,GRU)短文本情感分析模型。本文的主要工作如下:(1)针对情感词典法与传统机器学习的方法所存在的问题,提出了基于深度学习的短文本情感分析模型。比较了几种典型的深度学习模型结构,为了获得更好的上下文信息,提高模型训练速度,提出了基于注意力机制的双向GRU模型。该模型利用word2vec模型将文本转化为包含语义信息的向量,然后将两个单向的GRU模型前后堆叠,并融入多注意力机制。通过将注意力分别插入到输入层后以及分类层前,实现了对无关特征的弱化。实验证明,改进后的模型在中文酒店评论数据集上取得了较好的分类效果,准确率与双向GRU模型相比提高了1.7%。(2)针对短文本存在的特征稀疏等问题,提出了一种结合SVM的文本情感分析模型。该模型以双向GRU模型作为特征提取器,然后使用SVM构建分类器,将双向GRU模型的输出向量作为SVM模型的输入。改进后的模型能够利用SVM的鲁棒性强和准确率高的优势,有效提升了模型性能。实验结果验证,分类器的改变和注意力机制的加入使得原GRU神经网络模型的性能得到了有效提升,分类的准确率达到了 88%,相比于传统的分类模型,该模型在准确率上具有更好的表现。