论文部分内容阅读
情感分析技术是自然语言处理领域最火爆的方向之一,其功能就是利用一定的规则对文本上下文信息进行特征提取,并按照预设的算法对文本所蕴含的作者情感倾向进行判定。微博社交平台是时下最热门的中文社交平台之一,若能对微博评论文本进行及时准确的情感倾向判断,其中的商业价值是巨大的。但是如此数量的文本仅靠人工去分辨是不可能的。随着情感分析技术的不断发展,使得利用机器来帮助组织分析用户情感成为可能,从最早的情感字典方法发展到利用机器学习算法来识别情感倾向,再到深度学习技术的出现将情感分析技术推向新的高潮。深度学习是一系列神经网络算法的统称,包括卷积神经网络(CNN)、循环神经网络(RNN)等。其不同于以往的情感分析技术,可以在不依赖人工选择的情况下自主学习文本信息,在情感分类任务上取得了非常瞩目的成就。但是目前国内对于微博情感分类的研究比较稀缺,过往研究多数利用情感字典方法和机器学习算法,运用深度学习算法研究微博文本的文献较少,而且所使用的算法较为简单。本文通过深入研究深度学习算法两种代表结构,发现两种算法互有优劣,若能将两者的优势提取出来共同发挥功效,那么,面对分类任务极有可能产生更好的分类结果,LSTM-CNN算法和CNN-LSTM算法正是基于这一思路构建。基于此,本文以微博用户“头条新闻”为研究对象,爬取了其10039条用户评论,经过数据清洗后,使用Python的Jieba库和Word2vec模型分别作文本分词化和向量化处理,最后构建了一个可以判断微博评论文本情感倾向的模型。这一模型使用了包括卷积神经网络(CNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(Bi LSTM)以及融合算法LSTM-CNN和CNN-LSTM在内的五种深度学习算法。通过实验表明,新提出的LSTM-CNN算法的最终情感分类效果最佳。这说明本文构建融合算法的思路是切实可行的。本文的研究拓展了使用深度学习算法研究微博文本的思路,新算法的提出也对深度学习算法的发展提供借鉴意义。