论文部分内容阅读
随着社交网络的快速发展,微博已经成为人们表达个人情绪的重要场所。针对社交网络短文本的意见挖掘、情感分析受到广大学者的关注。与情感分析不同,情绪分析是针对作者本身、粒度更细(高兴、愤怒、悲伤、害怕、惊讶、厌恶、喜欢)的情感分析。情绪词典不足,情绪表达口语化,情绪载体多样化都是在微博情绪分析面临的问题。类别相关度高、特征强弱不一也是情绪分类不同于传统文本分类的特点。本文针对微博情绪分类中情绪词典不足、情绪载体多样化和情绪分类的特点进行研究。 在情绪分类中,情绪词典起到非常重要的作用,国内外目前都有一些人工构建的情绪词典。即便如此,在口语化严重、新词不断出现的微博语料上,现有情绪词典不足以涵盖所有的情绪。除了情绪词以外,微博表情符也能形象生动的表达作者情绪。在一些简单句子中,甚至只一个表情符就表达了作者所有情绪。随着微博的发展,表情符也不断变化,有效的收集情绪表情符并正确的判定其情绪能够帮助人们更好的分析作者情绪。除此以外,微博文本还有一类重要的情绪载体:常用情绪表达。这些表达不能称为词,甚至不能称为短语,但却强烈的表达了人们的情绪。 情绪分类从分类的角度讲,与传统的文本分类不太一样。文本分类中往往类别之间有很明显的特征,但情绪类别之间有时特征并不那么明显。微博作者常常依靠情绪词、表情符、标点符号等来表达情绪。其次,情绪分类中特征强弱特点明显。比如,情绪词比普通文本表达的情绪强烈。再次,情绪分类中,类别之间并不一定完全独立,比如“厌恶”情绪很多时候和“愤怒”情绪很相近。 针对上述问题,本文研究了情绪新词的发现、微博表情符情绪判定、常用情绪表达抽取,并在此基础上提出了多策略的情绪分类方法。本文的主要贡献如下: (1)结合词内外部统计信息和单字在词中各个位置出现的概率,提出了一种基于大规模语料自动进行新词发现的方法。在新词发现之上,提出了利用word2vec计算新词相似词语中所有情绪词相似度均值进一步判定新词是否含有情绪。最后,利用互信息判定情绪新词的具体情绪。利用该方法,本文有效扩充情绪新词1876个。 (2)本文抓取了所有微博表情符,并自动判定这些表情符的具体情绪,最后发现了223个情绪表情符并对其进行了情绪判定。针对常用表达,本文提出了一种基于co-training扩充带情绪的语料库,并在扩充的情绪语料集上自动的进行常用表达抽取的方法,通过该方法发现了238个常用情绪表达。 (3)在(1)、(2)扩充的情绪载体基础上,针对情绪分类的特点,采用多策略的分类算法对微博进行情绪分类。策略一:根据情绪特征强弱不同等特点,提出根据各类情绪特征划分分类器,最后利用集成学习方法,融合多个分类器从而实现多类特征的融合。策略二:对基于较弱情绪特征的分类器采用多层次分类算法,首先判定文本的带情绪得分,再进一步判定文本情绪,避免过多无情绪样本直接分类导致误判。策略三:在集成各个分类器时,考虑到情绪类别的相关性,将每个分类器输出的情绪得分向量(7维向量)拼接起来作为输入,采用元学习方法集成多个分类器。最后将本文分类方法与以n-gram和种子情绪词典为特征的SVM分类方法进行了比较,实验结果表明,本文方法相对于SVM分类方法在F值上提高了0.15。