论文部分内容阅读
随着人们不断在网络平台上发表对商品、人物、社会事件等的观点和评论,分析和挖掘这些海量舆论数据具有重要的实际意义,因此,关于网络文本数据的自动分类尤其是文本情感的自动识别方面的研究就显得尤为重要。本文主要对中文网络舆论的情感类别识别及情感强度的量化展开了研究,主要完成了以下工作:采用爬虫等方法获取真实的网络舆论语料;对语料进行预处理并完成各类语义词典的构建;采用Word2Vec实现语料的向量化表示;分别采用基于支持向量机和朴素贝叶斯等传统机器学习方法、基于循环神经网络和卷积神经网络及其变体的深度学习方法以及基于语义词典的方法实现网络舆论文本的情感识别,并对这三类方法做了相应的改进。其中,在基于机器学习的方法中又对如何进行特征筛选以及分类器的选取展开了重点研究;在基于深度学习的方法中,针对本课题的识别任务设计了一种混合深度神经网络模型TBLC-rAttention;在基于词典的方法中,又分别对语义词汇的相似度计算以及情感词典的自动扩展着重进行了研究;然后结合词典和深度学习这两种方法的优缺点,提出了一种基于深度学习和语义词典的二阶段中文文本情感识别模型。最后通过召回率、准确率和F1值等评价指标来分析各种模型的性能。实验表明,本文最终提出的二阶识别方法,完美的结合了词典和深度学习的优势,在维持最高识别性能的同时,又能实现了文本情感的数字化衡量。为了使得本文的研究成果可以更好的落实到实际应用,采用python、PyQt5在Spyder集成开发环境下开发了一款网络舆情识别系统。该系统可以自动完成对网络舆论文本的情感识别,并按照要求输出情感类别、情感强度得分、关键词/句、词云图等信息。为了方便识别器的修正,用户还可以使用自己的语料库重新训练模型。