融合情绪知识库的多策略中文微博情绪分析

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hrbwqwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的快速发展,微博已经成为人们表达个人情绪的重要场所。针对社交网络短文本的意见挖掘、情感分析受到广大学者的关注。与情感分析不同,情绪分析是针对作者本身、粒度更细(高兴、愤怒、悲伤、害怕、惊讶、厌恶、喜欢)的情感分析。情绪词典不足,情绪表达口语化,情绪载体多样化都是在微博情绪分析面临的问题。类别相关度高、特征强弱不一也是情绪分类不同于传统文本分类的特点。本文针对微博情绪分类中情绪词典不足、情绪载体多样化和情绪分类的特点进行研究。  在情绪分类中,情绪词典起到非常重要的作用,国内外目前都有一些人工构建的情绪词典。即便如此,在口语化严重、新词不断出现的微博语料上,现有情绪词典不足以涵盖所有的情绪。除了情绪词以外,微博表情符也能形象生动的表达作者情绪。在一些简单句子中,甚至只一个表情符就表达了作者所有情绪。随着微博的发展,表情符也不断变化,有效的收集情绪表情符并正确的判定其情绪能够帮助人们更好的分析作者情绪。除此以外,微博文本还有一类重要的情绪载体:常用情绪表达。这些表达不能称为词,甚至不能称为短语,但却强烈的表达了人们的情绪。  情绪分类从分类的角度讲,与传统的文本分类不太一样。文本分类中往往类别之间有很明显的特征,但情绪类别之间有时特征并不那么明显。微博作者常常依靠情绪词、表情符、标点符号等来表达情绪。其次,情绪分类中特征强弱特点明显。比如,情绪词比普通文本表达的情绪强烈。再次,情绪分类中,类别之间并不一定完全独立,比如“厌恶”情绪很多时候和“愤怒”情绪很相近。  针对上述问题,本文研究了情绪新词的发现、微博表情符情绪判定、常用情绪表达抽取,并在此基础上提出了多策略的情绪分类方法。本文的主要贡献如下:  (1)结合词内外部统计信息和单字在词中各个位置出现的概率,提出了一种基于大规模语料自动进行新词发现的方法。在新词发现之上,提出了利用word2vec计算新词相似词语中所有情绪词相似度均值进一步判定新词是否含有情绪。最后,利用互信息判定情绪新词的具体情绪。利用该方法,本文有效扩充情绪新词1876个。  (2)本文抓取了所有微博表情符,并自动判定这些表情符的具体情绪,最后发现了223个情绪表情符并对其进行了情绪判定。针对常用表达,本文提出了一种基于co-training扩充带情绪的语料库,并在扩充的情绪语料集上自动的进行常用表达抽取的方法,通过该方法发现了238个常用情绪表达。  (3)在(1)、(2)扩充的情绪载体基础上,针对情绪分类的特点,采用多策略的分类算法对微博进行情绪分类。策略一:根据情绪特征强弱不同等特点,提出根据各类情绪特征划分分类器,最后利用集成学习方法,融合多个分类器从而实现多类特征的融合。策略二:对基于较弱情绪特征的分类器采用多层次分类算法,首先判定文本的带情绪得分,再进一步判定文本情绪,避免过多无情绪样本直接分类导致误判。策略三:在集成各个分类器时,考虑到情绪类别的相关性,将每个分类器输出的情绪得分向量(7维向量)拼接起来作为输入,采用元学习方法集成多个分类器。最后将本文分类方法与以n-gram和种子情绪词典为特征的SVM分类方法进行了比较,实验结果表明,本文方法相对于SVM分类方法在F值上提高了0.15。
其他文献
在多媒体时代,视频是包含信息量最大、最直观的一种信息传播媒介。然而,由于数字视频数据量巨大,必须经过压缩编码才能实现视频的传输、存储和播放。视频压缩编码技术一直是多媒
文本知识获取是知识工程乃至人工智能的关键技术和热门研究课题。文本知识获取的主要目的,就是从非结构化或者半结构化的自然语言文本中,挖掘出结构化的数据,使得机器易于理解,人
随着社会的不断发展进步,IT技术已经逐步渗透到各个传统行业,并在生产实践中扮演越来越重要的角色。从上世纪八十年代开始经过多年的不断发展,信息产业已经成为国家经济发展的主
学位
地面沉降在全球许多地方普遍发生,已经成为全球性的问题。传统的大地测量技术在日益严重的大范围地面沉降监测方面越来越显得难以胜任,而新兴的雷达干涉测量技术正好提供了一
学位
针刺作为一种治疗手段在中国已有三千年的历史。近三十年来针刺正在慢慢的被西方承认和接受。但在国外他仍然是一种辅助医疗手段,与各种安慰治疗措施相当。究其原因还是由于其
软件质量问题是工业界和学术界共同关注的热点问题.软件测试是软件生产质量保障中的一项重要技术,它的主要目的是尽可能地减少程序的错误.本文着重研究了如何将约束求解应用到
学位
近几年,随着人们对环境污染、城市应急资源调度、现代服务设施管理和城市社区功能定位等的需要不断增长,缓冲区分析在交通、林业、资源管理、城市规划、环境与生态保护等领域
集成毛细管电泳芯片具有分析速度快、样品用量少、分离效率高等诸多优点,自问世以来,就得到了人们的普遍关注。在短短十几年内,它迅速发展成为一种有效的分析检测手段,并被认为是
随着互联网技术的蓬勃发展,各类数据正在以前所未有的速度被产生,而人们收集数据的方式也是各种各样,因此,数据普遍具有规模大、结构复杂和维数高等特性,这就导致大数据存在以下问