论文部分内容阅读
近年来,随着互联网络应用的快速发展,人们积极参与到了电子购物和网络社交活动中,通过论坛、博客、微博、商品评论等分享自己的心情、观点和体验等。因此,互联网上产生了大量的具有潜在价值的对人、事和物的文本评论内容。对个人用户来说,网络评论往往影响着一个人对某一事物的认知和态度,从而会渗透到自身的网络行为模式中。对于商业组织说,分析用户观点可以使商业组织更全面的了解用户体验,进而完善产品功能和提高服务水平,使公司保持良好的市场竞争优势。对于国家政府而言,通过舆情监控可及时了解人民的需求和态度,发现导致国民负面情绪的关键事件,进行疏导与解决,为人民提供更好的服务。情感分析研究不但具有重要的社会意义和价值,而且日渐成为自然语言理解、文本挖掘、信息检索和网络智能信息处理等领域研究的热点问题。 随着LDA模型在机器学习、数据挖掘等领域内的广泛应用,基于LDA模型的情感分类方法如雨后春笋般出现,但是根据我们查阅的文献,目前的研究方法大部分都是从扩展LDA模型本身来提升情感分类的效果,并没有相关的工作考虑到利用主题之间的相对次序来解决情感分类的问题。本文通过探索情感文本中主题分布的相对次序对情感分类效果的影响,提出了一种基于主题序列的新的情感分类方法,主要工作包括: (1)探索了主题之间的相对次序对情感倾向性分类的影响,提出了主题序列以及共现主题的概念,并通过实验分析具有不同情感倾向性语料库中主题序列相对次序之间的分布情况。 (2)以(1)中的实验结果为导向,提出了基于主题序列的情感分类方法。首先,采用LDA模型建模,得到情感文本的主题分布。其次,通过训练得到褒贬二类的主题共现矩阵。最后,通过褒贬二类的主题共现矩阵将情感文本分为褒贬二类。实验结果表明该分类方法在实验所采用的数据集上取得了跟SVM分类器相当的分类性能。 (3)在(2)的基础上,改进了基于主题序列的情感分类方法,将共现主题的概念进行扩大,提出了主题共现窗口的概念,通过相同的数据集进行实验验证,实验结果较SVM有了稳定的提升,取得了很好的分类效果。