论文部分内容阅读
文本情感分类(sentiment classification)是信息检索与数据挖掘领域的一项重要研究课题,其目标旨在发现主观性文档中表达的态度和情感倾向性,具有极高的研究与应用价值,所以在近年来得到了专家学者的广泛关注并取得了快速发展。迄今为止,研究人员已经提出了许多种实用有效的文本情感分类算法。其中,基于深度学习模型的分类方法因其强大的特征学习能力,逐渐成为解决文本情感分类问题的一种重要方法。但是,现有研究中的深度学习模型不仅忽略了对已有情感资源和特征的有效利用,而且也忽视了文本数据中潜在的序列特征,致使深度学习模型的分类性能仍有较大的提升空间。为此,本文开展了以下两个方面的研究工作:(1)针对现有深度学习方法在文本情感分类任务中特征提取能力方面的不足,提出了一种基于扩展特征和动态池化的双通道卷积神经网络(Convolutional Neural Network,CNN)的文本情感分类算法。首先,将情感词、词性、程度副词、否定词和标点符号等多种能够影响文本情感倾向的词语特征相结合形成一个扩展文本特征。然后,把词向量特征与扩展文本特征分别作为卷积神经网络的两个输入通道,采用一种新的动态k-max池化策略以提升模型提取特征的能力。在多个标准英文数据集上的文本情感分类实验表明:新算法的分类性能不仅比经典的单通道卷积神经网络算法有显著的提高,而且与一些代表性算法相比也具有一定的优势。(2)为了利用文本数据中潜在的序列特征来提升分类性能,提出了一种基于长短期记忆(Long Short-Term Memory,LSTM)神经网络与注意力机制(Attention Mechanism,AM)的文本情感分类模型。首先,将每条文本数据以标点符号分割为若干子句,并输入到基于双通道卷积神经网络的文本情感分类模型(text sentiment classification algorithm based on double channel convolutional neural network,TSCD-CNN)中以提取每个子句的局部特征。然后,将提取的特征依序输入到LSTM中以挖掘文本数据中的序列特征,并引入注意力机制以体现不同子句的情感贡献度差异。最后,采用随着时间的反向传播算法来训练得到最终的分类模型。在多个标准英文数据集上的实验结果表明,使用LSTM提取文本数据序列特征可有效提高模型的分类效果,而在引入注意力机制后,模型的分类性能可得到进一步的提升。