论文部分内容阅读
随着互联网技术的迅猛发展,“宽带中国”等战略的持续深入实施,网络媒体已成为信息传播的主要渠道,其对社会舆论导向的影响力也日益显著。微博带来便捷的同时,也正在成为虚假信息滋生和泛滥的温床,因此,对微博舆情进行分析、监控就有着重要的现实意义。随着微博用户的爆炸式增长,其信息数量呈指数级递增,传统形式对微博舆情分析结果的展现已逐渐不能满足实际需要。本文从舆情分析结果展现的视点,分析了当前微博舆情可视化领域的相关研究工作,在研究微博舆情的图形化展示方式的基础上,提出了一种对当前微博舆情概况的可视化表现形式,基于提出的可视化表现形式,完成了微博舆情可视化原型系统的设计与实现。本文的主要工作内容如下:(1)对当前微博舆情可视化领域的分析与研究,提出并基于D3.js可视化库实现了一种微博舆情概况的图形表现形式,对当前微博舆情热点话题、热点话题的关注度、热点话题的用户情感倾向、热点话题之间的潜在可能关联四项数据进行直观展示。(2)在微博文本预处理过程中,通过调用NLPIR中文分词系统的API实现了对微博文本进行中文分词、词性标注等工作,并根据词性、长度、内容对分词结果进行过滤,得到了微博文本的VSM(向量空间模型)表示。(3)在微博舆情分析的话题发现过程中,基于知网(How Net)的体系结构,对于微博文本的语义相似度进行计算,度量微博文本间的语义距离,进而以此进行Single-Pass聚类分析,获得了微博舆情热点话题;基于知网(HowNet)发布的情感分析用词语集beta版,构建情感词典,通过情感词典对微博热点话题进行了情感值计算。(4)研究了舆情分析过程中的关键内容,对微博舆情可视化系统进行了详细的分析与设计。基于提出的微博舆情概况可视化形式对微博舆情可视化原型系统进行了实现,该原型通过对输入的微博文本数据集进行微博舆情分析,可视化展现了该数据集包含的微博舆情概况图像。