基于中文微博的情感分类技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:zjzjzj13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,微博作为一种新兴的社交平台,其应用已经逐步渗透到人们生活的各个方面。微博中包含着人们对产品、娱乐、社会热门事件等的观点和看法,蕴含了丰富的情感信息。分析微博平台上的用户在某一事件段内或对某一特定话题的情感态度,有效的对它们进行情感分类,不但能够让商家及时获取用户意见,同时能够让政府部门及时了解社会动态,倾听民众心声,对社会舆情具有良好的监控作用,具有巨大的商业价值和社会价值。本文将对中文微博的情感分类技术做深入的研究,包括情感极性分类和情感细粒度分类。主要的研究内容如下:(1)对微博情感的极性分类方法进行了研究。将微博情感分类为正向情感和负向情感两个类别,对其中涉及的技术进行了一定改进。首先,传统信息增益方法在进行特征选择时,并没有考虑特征项在类内和类间出现情况,对此,本文引入类间集中度和类内均匀度两个因子,对信息增益方法进行补充。其次,在特征权重计算过程中,本文结合微博情感分类的问题特点,将特征的情感信息和位置信息进行加权,实现了对传统TF-IDF计算方法的调整。(2)对微博情感的细粒度分类方法进行了研究。将微博情感分类为乐、好、惊、怒、哀惧、恶七个类别,对传统的方法进行了分析和改进。首先,为了弥补现有的多类别情感词典在词语覆盖范围方面的不足,对现有的多类别情感词典进行了扩展,利用微博训练语料生成候选情感特征,提出了基于方差的TF-IDF情感特征选择方法,并对选择出的情感特征计算倾向和强度,将其补充进情感词典。然后,根据扩展后的情感词典,计算微博的细粒度情感值,在对微博情感细粒度分类过程中,先对微博进行情感极性分类,然后细粒度分类,提出了基于层次的微博情感细粒度分类算法。实验结果表明,本文提出的情感极性分类方法和情感细粒度分类方法在准确率、召回率和F值上都较传统的分类方法有了一定提高。
其他文献
双语教学是我国高等教育适应国际化趋势,培养富有创新精神和国际视野的复合型高素质人才的需要。推进双语教学势必要全面提高教师素养,正确处理理论和实践的关系,坚持双语教
工程造价控制是铁路建设项目的重要环节,对工程起着至关重要的作用。分析影响工程造价的主要因素:设计方案、材料价格和施工组织方案,结合铁路专用线项目的实际,通过对设计阶
任何情况下人的生命安全都是第一位的。强震作用下建筑物的倒塌造成的人员伤亡将引发一系列较财产损失更严重、更复杂的社会问题和经济问题。近年来国内外的数次震害表明即使
企业要想在激烈的市场竞争中取得一席之位,必须具备自己企业的特色,而企业文化是一个企业价值的重要指标,它能够在各方面改善企业的状况,包括成本控制方面。但是现阶段中小企
<正>共情(empathy)作为一种亲社会现象,引起了心理学、社会学、认知科学以及神经生物学等各个领域研究者的兴趣。由于共情现象错综复杂,这些学科的研究内容相互交叉、各有侧
<正>企业要生存和发展,必须创造利润,而企业的利润来自顾客的消费。企业的利润客户来源主要有两部分:一类是新客户,即利用传统的市场营销组合4P策略,进行大量的广告宣传和促
<正>丢勒的《忧郁I》是西方美术史上的名作,潘诺夫斯基在讨论它时提出过三个问题,其中第一问是"丢勒有何权利以一出精神悲剧取代原本是一种低劣气质的慵懒和愚钝"?在欧洲中世
通过对美国职业篮球联赛(NBA)数据的起因、发展和最新应用情况的分析,探讨在大数据时代的背景下,篮球运动引入统计学、现代管理学后所引发的球队组织结构变异,以及对于中国男
社交网站为公众提供一个多元开放的舆论环境,其中的用户可以充分表达自己的观点意见。针对文本内容的情感分析在社交网络日渐复杂化,社交网络信息海量化的趋势之下更显得尤为
<正>梁朝伟就坐在你的膝盖上,刘玉玲也能坐在你的腿上,这种绝妙的体验你连想都不敢想,这就是我们从英特尔迅驰广告看到的真实一幕。广告中,六位普通人与明星零距离接触,六位