论文部分内容阅读
随着网络技术的飞速发展,微博作为一种新兴的社交平台,其应用已经逐步渗透到人们生活的各个方面。微博中包含着人们对产品、娱乐、社会热门事件等的观点和看法,蕴含了丰富的情感信息。分析微博平台上的用户在某一事件段内或对某一特定话题的情感态度,有效的对它们进行情感分类,不但能够让商家及时获取用户意见,同时能够让政府部门及时了解社会动态,倾听民众心声,对社会舆情具有良好的监控作用,具有巨大的商业价值和社会价值。本文将对中文微博的情感分类技术做深入的研究,包括情感极性分类和情感细粒度分类。主要的研究内容如下:(1)对微博情感的极性分类方法进行了研究。将微博情感分类为正向情感和负向情感两个类别,对其中涉及的技术进行了一定改进。首先,传统信息增益方法在进行特征选择时,并没有考虑特征项在类内和类间出现情况,对此,本文引入类间集中度和类内均匀度两个因子,对信息增益方法进行补充。其次,在特征权重计算过程中,本文结合微博情感分类的问题特点,将特征的情感信息和位置信息进行加权,实现了对传统TF-IDF计算方法的调整。(2)对微博情感的细粒度分类方法进行了研究。将微博情感分类为乐、好、惊、怒、哀惧、恶七个类别,对传统的方法进行了分析和改进。首先,为了弥补现有的多类别情感词典在词语覆盖范围方面的不足,对现有的多类别情感词典进行了扩展,利用微博训练语料生成候选情感特征,提出了基于方差的TF-IDF情感特征选择方法,并对选择出的情感特征计算倾向和强度,将其补充进情感词典。然后,根据扩展后的情感词典,计算微博的细粒度情感值,在对微博情感细粒度分类过程中,先对微博进行情感极性分类,然后细粒度分类,提出了基于层次的微博情感细粒度分类算法。实验结果表明,本文提出的情感极性分类方法和情感细粒度分类方法在准确率、召回率和F值上都较传统的分类方法有了一定提高。