论文部分内容阅读
随着Web2.0时代的到来,网络的发展已经进入人们生活的各个领域,近年来微博的出现,让生活更加丰富。微博影响力的增长,吸引了大批学者对微博客的深入研究,而情感词识别和情感分析成为了一个重要的课题。在微博的开放平台,提供的功能是可以查阅信息,也可以发布信息给别人来看。与此同时,随着发布信息的多元化,随之产生了新问题,如,情感新词的出现及对微博句的情感极性分析,新词的出现给中文分词产生很多难以识别的“散串”和“碎片”;情感分析时判别感情倾向性微博客的文字,属于判断积极的,消极的,中立的法官。对这些文本的情感倾向性,可以对网民的情绪有掌握,不仅有一定的商业价值,还有益于社会、还可以帮助我们在舆情监控、词库更新、自然语言处理等领域完善。每天数以万计的中文微博用户刷新信息,对微博情感词的产生以及对极性分析的问题都随之产生,做好这些工作对了解用户的态度很重要和迫切。本文通过从实验提供的数据,通过条件随机场进行情感词识别,进行词性标注,结合上下文信息特征,构建特征向量,对语料数据进行训练模型构建和测试,最后得到情感词的正确率(Precision)、召回率(Recall)和F-值。对微博情感词进行有效正确的识别是判别微博文本情感倾向性的前提和基础。本文首先结合中文信息处理、自然语言等知识,结合实验室对情感新词发现和情感倾向分析的研究,论述情感倾向相关的各种关系,是建立在微博情感倾向性判断现有所做分析的基础之上的。本论文的研究最终目的是提高数据结果的正确率、召回率及F-值,为更进一步的研究奠定基础。实验数据选用项目给定的微博语料,情感词识别和情感倾向性分析的训练和测试数据是不同的,实验结果也验证了该论文中用到的方法是可行的。实验结果显示:该方法在情感词识别正确率为34.21%,召回率为0.11%,F值为0.002%;结果识别率整体不高,但也为下一步工作打好了基础。对情感句极性判别的正确率为84.87%,召回率为65.18%,F值为77.27%,此次研究对中文微博的情感倾向性分析进行了初步探索。