论文部分内容阅读
随着现代化和城市化的快速推进,互联网新媒体成为了一种全新的信息传播的方式。网络舆情开始呈现出传播速度快、数据体量大、数据种类复杂等特性,自媒体文本成为突出载体。目前网络舆情的分析大多停留在对单一、特定的网站进行词频统计分析或多源联合分析,并没有能够做到从时间、空间两个维度联合分析,很难做到精准的定位分析和预警。而时空扫描统计量的方法具有空间、时间两个维度同时扫描的能力,通过改变扫描的动态窗口能够达到预警分析的特点,在网络舆情文本信息方面具有很大的应用潜力,近年来有很多的研究也展现出时空扫描统计量相对于其它方法具有更强的数据分析能力。本文使用时空扫描统计量针对网络文本舆情构建扫描算法,时空扫描传统用于医学疾病领域,针对网络文本舆情的特点在应用过程中进行了扫描结构、数据仿真等方面的改进。本文针对网络文本舆情与时空扫描的结合主要做了以下工作:(1)通过网络爬虫从各大报刊网络平台中获取文本信息,分析了网络文本的特点,根据网络文本特点建立数据库,之后对文本进行拆分和分词处理,通过统计分词后各个词组的词频形成目标词词库,并从中提取词组作为扫描过程中的查询词汇。(2)研究了时空扫描统计量与其他几种模型的优缺点,结合网络文本的特点确定以时间和空间相结合的时空扫描统计量对网络舆情进行扫描模型的构建。其中包括数据源的建模、空间距离的建模、广义似然比函数的使用方式以及建模过程中的参数计算方法等。并通过假设数据对整个扫描模型进行算例分析,确认扫描模型的有效性。(3)搭建了整个实验系统并编写了实验代码,构建数据提取模块与数据矩阵计算模块,并根据实际情况添加了数据排序与清洗模块,确定了时间、空间、扫描范围三重循环的扫描层次。通过研究聚集显著性的判别方式,确定了以蒙特卡罗仿真的形式来判别数据的显著性,并针对仿真中模拟数据重组问题,构建了全随机重排与关联性重排两种数据矩阵重排机制。通过爬取的真实数据,对实验系统进行测试,得到基于时空扫描的网络文本舆情实验系统的实际测试结果。实验表明本文中所提出的基于时空扫描的网络文本舆情模型在对互联网平台上文本分析是有效的,能够很好的发现网络文本中出现的词组异常聚集,针对实际扫描过程做出的改进明显的优化了实验系统的运行效率,达到了对网络文本舆情实时分析的目的。