基于时空扫描的网络文本目标词检测方法研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:cjwxwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代化和城市化的快速推进,互联网新媒体成为了一种全新的信息传播的方式。网络舆情开始呈现出传播速度快、数据体量大、数据种类复杂等特性,自媒体文本成为突出载体。目前网络舆情的分析大多停留在对单一、特定的网站进行词频统计分析或多源联合分析,并没有能够做到从时间、空间两个维度联合分析,很难做到精准的定位分析和预警。而时空扫描统计量的方法具有空间、时间两个维度同时扫描的能力,通过改变扫描的动态窗口能够达到预警分析的特点,在网络舆情文本信息方面具有很大的应用潜力,近年来有很多的研究也展现出时空扫描统计量相对于其它方法具有更强的数据分析能力。本文使用时空扫描统计量针对网络文本舆情构建扫描算法,时空扫描传统用于医学疾病领域,针对网络文本舆情的特点在应用过程中进行了扫描结构、数据仿真等方面的改进。本文针对网络文本舆情与时空扫描的结合主要做了以下工作:(1)通过网络爬虫从各大报刊网络平台中获取文本信息,分析了网络文本的特点,根据网络文本特点建立数据库,之后对文本进行拆分和分词处理,通过统计分词后各个词组的词频形成目标词词库,并从中提取词组作为扫描过程中的查询词汇。(2)研究了时空扫描统计量与其他几种模型的优缺点,结合网络文本的特点确定以时间和空间相结合的时空扫描统计量对网络舆情进行扫描模型的构建。其中包括数据源的建模、空间距离的建模、广义似然比函数的使用方式以及建模过程中的参数计算方法等。并通过假设数据对整个扫描模型进行算例分析,确认扫描模型的有效性。(3)搭建了整个实验系统并编写了实验代码,构建数据提取模块与数据矩阵计算模块,并根据实际情况添加了数据排序与清洗模块,确定了时间、空间、扫描范围三重循环的扫描层次。通过研究聚集显著性的判别方式,确定了以蒙特卡罗仿真的形式来判别数据的显著性,并针对仿真中模拟数据重组问题,构建了全随机重排与关联性重排两种数据矩阵重排机制。通过爬取的真实数据,对实验系统进行测试,得到基于时空扫描的网络文本舆情实验系统的实际测试结果。实验表明本文中所提出的基于时空扫描的网络文本舆情模型在对互联网平台上文本分析是有效的,能够很好的发现网络文本中出现的词组异常聚集,针对实际扫描过程做出的改进明显的优化了实验系统的运行效率,达到了对网络文本舆情实时分析的目的。
其他文献
为研究部分斜拉桥混凝土索鞍的应力分布规律、优化索鞍的钢筋配置,以宁江松花江特大桥为背景进行分析。采用MIDAS Civil建立全桥空间杆系模型分析桥梁整体受力特性,再基于ABA
随着物联网技术应用于物流运输领域,物流运输人才和岗位需求将发生变化,基于物联网的物流管理专业'运输管理实务'课程设计也将随之变化。简单分析物联网技术对物流运
基于进出口贸易的相关理论,我们收集了2006—2015年的年度数据,结合已有研究,采用因子分析的方法,对可能影响湖南省进出口贸易的因素做了深入分析。我们选取了全国GDP、湖南
国有资产作为国民经济的重要组成部分,在推动社会经济发展中具有至关重要的作用。国有资产管理对于保障国民经济稳定健康的发展具有重要的意义。因此,国家对这一部分资产的管
当前中国人学研究存在的问题主要是:社会历史发展的宏观研究视角与个体存在的微观研究视角彼此分离,对中、西、马三种不同的思想文化资源的利用存在偏颇和失衡,贯穿在多层面
目的:以痰湿CIA模型鼠为研究对象,通过对祛湿化痰法在痰湿CIA模型鼠抵抗素的研究,明确祛湿化痰法在类风湿关节炎中对抵抗素的影响。通过观察小鼠的一般状态、对小鼠体重的对比、关节炎指数的测量及对小鼠血清炎症因子和脂肪因子的检测,探索祛湿化痰法对痰湿CIA模型小鼠的疗效,为类风湿关节炎的临床治疗提供新思路。材料与方法:(1)将健康的38只DBA/1雄性小鼠分成空白组及A、B、C四组,适应性喂养一周,空
城市规划作为城市治理的龙头与核心,在城市的发展和治理过程中占据重要位置。国外城市规划中不断扩大参与群体和参与程度,较多引入公众参与和公众决策。国内在城市规划公众参
以国内外先进民用飞机机载系统机载软件技术现状为背景,以DO-178B为机载软件适航审定基础,并结合某型号飞机机载软件的研制管理情况,对民用飞机机载系统机载软件适航方法进行