基于深度学习的文本情感分类方法研究

来源 :北京工业大学 | 被引量 : 4次 | 上传用户:hanyunba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类(sentiment classification)是信息检索与数据挖掘领域的一项重要研究课题,其目标旨在发现主观性文档中表达的态度和情感倾向性,具有极高的研究与应用价值,所以在近年来得到了专家学者的广泛关注并取得了快速发展。迄今为止,研究人员已经提出了许多种实用有效的文本情感分类算法。其中,基于深度学习模型的分类方法因其强大的特征学习能力,逐渐成为解决文本情感分类问题的一种重要方法。但是,现有研究中的深度学习模型不仅忽略了对已有情感资源和特征的有效利用,而且也忽视了文本数据中潜在的序列特征,致使深度学习模型的分类性能仍有较大的提升空间。为此,本文开展了以下两个方面的研究工作:(1)针对现有深度学习方法在文本情感分类任务中特征提取能力方面的不足,提出了一种基于扩展特征和动态池化的双通道卷积神经网络(Convolutional Neural Network,CNN)的文本情感分类算法。首先,将情感词、词性、程度副词、否定词和标点符号等多种能够影响文本情感倾向的词语特征相结合形成一个扩展文本特征。然后,把词向量特征与扩展文本特征分别作为卷积神经网络的两个输入通道,采用一种新的动态k-max池化策略以提升模型提取特征的能力。在多个标准英文数据集上的文本情感分类实验表明:新算法的分类性能不仅比经典的单通道卷积神经网络算法有显著的提高,而且与一些代表性算法相比也具有一定的优势。(2)为了利用文本数据中潜在的序列特征来提升分类性能,提出了一种基于长短期记忆(Long Short-Term Memory,LSTM)神经网络与注意力机制(Attention Mechanism,AM)的文本情感分类模型。首先,将每条文本数据以标点符号分割为若干子句,并输入到基于双通道卷积神经网络的文本情感分类模型(text sentiment classification algorithm based on double channel convolutional neural network,TSCD-CNN)中以提取每个子句的局部特征。然后,将提取的特征依序输入到LSTM中以挖掘文本数据中的序列特征,并引入注意力机制以体现不同子句的情感贡献度差异。最后,采用随着时间的反向传播算法来训练得到最终的分类模型。在多个标准英文数据集上的实验结果表明,使用LSTM提取文本数据序列特征可有效提高模型的分类效果,而在引入注意力机制后,模型的分类性能可得到进一步的提升。
其他文献
在探究根生长方向的实验中选用菜豆、黄豆、小麦、玉米等材料进行实验,结果这些材料的根系不发达,生长缓慢,且根系较软,从培养基质中取出后生长方向性不明显,实验效果不理想。后来
甲苯歧化校内实训基地全景还原工厂装置,构建生产性与教学性融合的实训平台,在环保安全的前提下,开展粗乙醇精馏加工生产,涉及反应、精馏、换热、控制中心、质量控制等多个典
本文针对次世代游戏的贴图效果,研究了法线贴图和置换贴图的技术特点,结合Zbrush、Phtoshop软件进行了技术剖析,研究了次世代游戏贴图的技术方法和流程,如何去实现次世界游戏
<正>在40年改革开放的过程中,铁路对于经济发展的推动,起到了至关重要的作用。截至2017年底,全国铁路营业里程达12.7万公里,其中高铁2.5万公里。在这12.7万公里铁路的建设中,
目的 探讨品管圈活动在下肢骨折手术患者功能锻炼依从性中的应用效果。方法 通过开展品管圈活动,提高下肢骨折手术患者功能锻炼的依从性。结果 下肢骨折手术患者功能锻炼的依
在队伍建设实践中,历史经验告诉我们,思想政治工作只有敢于面对现实才能"有为",只有敢于解决问题才能"有位",只有获得认可才能"有效"。对于专职消防员队伍来说,做好思想政治
3D打印作为近年迅速发展的先进制造技术,其实际应用已渗透到生产和生活的各个领域。熔融沉积成型(Fused Deposition Modeling,FDM)打印技术凭借软硬件开源、制造成本低、成型
根据蛭石的国内外研究现状,采用颗粒蛭石为吸附剂,分析研究其对于亚甲基蓝的吸附性能,探索了不同时间、浓度和蛭石量对亚甲基蓝的吸附量和去除率影响规律。实验结果表明,当颗