论文部分内容阅读
随着近几年社交网络的迅猛发展,用户在网络中越来越频繁的发表各种各样带有情感色彩的评论,这些数量呈爆炸性增长的评论中包含着用户的主观信息。对这些进行主观信息挖掘,从中抽取出的有价值的信息对于商品改进、舆情监控和产品推荐等方面都着重要的意义。文本情感分类顺应成为了一个研究热点。文本情感分类主要采用无监督和有监督两种分类方法。本文对这两种分类方法中的关键步骤和相关技术进行了介绍并针对两种方法对酒店领域文本情感分类进行研究。在基于情感词典的无监督情感分类方法中,存在着情感词典中的情感词覆盖面不够广、情感倾向值计算方法考虑不够全面等问题。在有监督情感分类方法中,特征选择阶段存在对部分有用的特征无法识别的问题,在特征权重计算时,传统的计算方法也存在一定的不足。针对上述问题,本文的主要工作如下:一、构建酒店领域情感词典并提出情感倾向值计算方法。首先对将获取的知网词典、NTUSD词典以及褒贬义词典进行整合,并利用word2vec工具继续扩充词典,形成一个相对完整的酒店领域情感词典。同时考虑如否定词和总结词等特殊情况,对评论进行情感词和特殊词匹配并按照本文提出的情感倾向值计算方法进行计算。得到评论的情感倾向性,将酒店评论文本分为正面、负面情感类别。二、提出了特殊特征选择策略和改进的特征权重计算算法。特征选择时通常采用词而非词组,忽略了一系列带有情感色彩的如否定词加名词等特殊情况。经典的TF-IDF(词频率-逆文档频率)权重计算方法只考虑了词频率和逆文档频率的影响,并没有考虑特征词的内部分布情况对分类的影响。本文在经典的特征选择方法和特征权重计算方法TF-IDF的基础上,通过特殊特征选择策略扩充特征项集合,并结合特征词在评论中的位置分布信息,提出了改进的PW-TF-IDF算法。将支持向量机作为分类器,并利用训练以后的分类器对酒店领域的评论文本进行情感倾向性分类。对两种不同的分类方法在酒店领域评论性文本数据集上进行实验,均取得了较好的实验效果,初步验证了两种方法的可行性。