基于情绪词典扩展技术的中文微博情绪分析

来源 :南京航空航天大学 | 被引量 : 4次 | 上传用户:wangyaoxf520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博等社交媒体在人们生活中的普及,微博对人们的生活和工作产生了很大的影响。因此,微博情绪分析也成为自然语言处理的一个研究热点。现阶段中文微博的情绪分析正处起步阶段,情绪词典是微博情绪分析的重要资源。但现有情绪词典地构建还不够健全,这是造成中文微博情绪分析准确率较低的重要原因之一。因此,本文提出了一种基于词典扩展技术的微博情绪分析,通过在特定语料中对现有情绪词典进行情绪词的扩展和情绪权重的标注,实现对现有情绪词典的扩展,并利用扩展后的情绪词典对该语料进行情绪分析。首先,本文提出了一种情绪词识别的方法,该方法主要是识别语料中未被情绪词典收录,却表达了情绪的词语。利用情绪词典中情绪色彩鲜明的情绪词作为种子情绪词,通过考察候选词与种子情绪词在语料中的相似性来识别候选词中的情绪词。利用识别出的情绪词扩展现有的情绪词典,并使用无监督的规则方法和有监督的支持向量机(SVM)方法进行微博情绪分析。将实验结果与原情绪词典的实验结果进行对比,结果表明,情绪词地扩展有效地改善了词典对微博的覆盖率,并显著地提高了微博情绪分析的准确率。其次,本文对语料中的情绪词进行了加权处理。通过考察情绪词在语料中与各情绪类的共现模式判断情绪词在语料中对情绪的激励程度,利用情绪词对情绪激励程度的差别对情绪词进行加权。实验结果表明,与词典中标注的情绪强度相比,该方法计算的情绪词权重更准确地表示了该词在语料中对情绪表达的作用,有效地提高了微博情绪分析的精度。并且该方法可以有效的综合多个情绪词典的优势,更进一步地提高微博情绪分析的准确率。最后,本文综合了前面两个工作的优势进行了情绪词典扩展。结合种子情绪词的情绪权重进行情绪词的识别,并根据种子情绪词的情绪权重对识别出的情绪词进行了加权处理。使用所生成的情绪词典,利用无监督的规则方法和有监督的支持向量机(SVM)方法进行微博情绪分析,并将实验结果与现有词典以及未加权的语料情绪词进行比较,结果表明,该方法扩展的情绪词典中情绪词具有更鲜明的情绪倾向,进一步提高了微博情绪分析的准确率。
其他文献
惯性器件为飞行器提供位置、姿态等导航信息,是飞行器上的重要设备。惯性器件精度和特性的测试是应用中的重要问题,论文讨论了惯性组件测试评价系统的开发。论文介绍了惯性组
数据仓库的构建是一个复杂,庞大,循环往复的过程。要构建一个优秀的数据仓库平台涉及到很多技术,需要考虑很多方面。本文就数据仓库中的优化问题提出探讨。 本文首先介绍一些
给定一个有穷字符集∑,假设S是由∑中的n个字符组成的文本串,P则是由∑中的m个字符组成的模式串。模式匹配就是查找模式串P在文本串S中符合特定条件的所有出现。在巨大数据集的
基于步态的身份识别是近几年出现的一种新的生物识别技术。步态是指人们行走的姿势,步态特征是目前远距离情况下唯一可感知的生物行为特征。与传统的生物特征相比,步态特征具
转换系统作为经典的形式化模型,被广泛用于描述并发系统的行为。然而,在经典的转换系统中,标记自身所包含的结构性质并未被考虑,当考察附有特定要求的并发系统时,通常需要一
联合补充问题,是指从一个供货商那里订购多种物品,采用某几种物品联合订购的过程。在传统的库存补充模型中,研究者大都假设了主要订购费用、各物品次要订购费用、各物品单位库存保管费用等关键因素为已知常数,然后根据要求确定哪几种物品联合补充。但在实际情况中,有些影响联合补充的因素是不确定的,例如,需求量随市场波动而变化,订购提前期可能会受到运输条件的影响等,从而形成了联合补充的不确定环境。在复杂的联合补充系
通信技术是20世纪80年代以来发展最快的学科之一,也是人类进入信息社会的重要标志。纵观通信发展的语言文字通信、电通信、电子信息通信三个阶段,信息传输的安全性和保密性一直
歌手识别是音乐检索和分类中的一个重要分支。本文选取MP3格式的音乐作为研究对象,提取了MP3格式音乐的音素特征,对基于MP3内容的歌手识别技术进行了研究。 本文的歌手识别
随着网络技术和信息技术的飞速发展,网上数据交换也越来越频繁。XML因具有可扩展性、跨平台性、自描述性等优点,逐步成为网上信息表达和数据交换的事实标准。但是在享受XML带来
以IP技术为核心的通信网络已经成为当今人类社会最重要的基础设施之一,是人们工作、学习以及生活的重要组成部分。IP网络最重要的价值并不在于网络本身,而是在于网络上承载的