论文部分内容阅读
网络的快速发展和广泛应用促使网络更深层次地渗透到人类社会中,原本基于交流而存在的舆情也具有了网络化的特征。由于网络化的舆情具有随机性强、传播速度快、影响范围大、潜在危害性高,并且调控困难等特点,真实有效地反映网络舆情事件的发展态势和情感倾向、提供量化指标以供决策者分析把握网络舆情的状况,已成为当前网络舆情研究领域最主要的需求之一。本文提出基于信息测度的舆情情感态势研究模型,将信息熵引入至舆情分析领域,并将其作为舆情情感态势评判的依据,并在实际数据中进行验证,其研究具有实际意义。目前学者们大都以网络舆情文本数量特征为计算基础来研判网络舆情态势和情感,本文在网络舆情研究中引入信息熵及其相关概念并进行扩充,提出了基于信息测度的网络舆情态势感知模型。该模型中信息测度和香农提出信息熵的思路一致,具体为通过词频近似表示词出现的频率,使用信息熵计算公式计算一个句子的信息熵;对于有父信息的句子,计算其相对于父信息的互信息,并从句子的信息熵中减去这部分,得到句子中与主题相关但不重复的信息熵,将其作为句子对事件的总信息熵贡献。本文将统计事件的总信息熵,并将其作为事件是否为热点的评判依据;统计事件总信息熵随事件的变化,并将其作为事件发展态势的评判依据。当前网络舆情情感研究的情感分类以分为正向和负向两类为主流,但就反应事实而言维度过少,难以反映舆论群体真实的情感倾向与分布。本文采用将情感分为“乐”、“好”、“怒”、“哀”、“恶”、“惧”、“惊”7类的情感分类方式,来逼近舆情主体的真实情感分布;使用网络词典和表情词典等扩充了大连理工中文情感词汇本体库,并结合了否定词、程度副词以及句式,通过字典匹配的方法进行网络舆情情感态势的分析。本文计算并统计事件时间段内各个情感分量的占比和绝对值,以此作为事件情感分布和情感强度的评判依据。在细化网络舆情情感分析的研究中,现阶段的研究大多使用以文本数量特征为计算基础的研究方法,难免存在客观性和真实性不足的问题。为解决此问题,本文结合基于信息测度的网络舆情态势感知模型,提出了基于信息测度的网络舆情情感分析方法,该方法使用模型中的扩展超信息作为文本情感的更新依据,提高了情感细化研究的客观性与真实性。论文为验证上述模型与方法的有效性,使用爬虫爬取了15个事件从2017年07月27日开始20天内的微博数据共144万条,并进行了模型和方法验证,验证结果与事实结果符合较好,体现出了相对于数量特征的优势。