基于机器学习的网络舆情采集技术研究与设计

被引量 : 10次 | 上传用户:liu_kai5189
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络平台的重要性愈发突出,网络中虚假、暴力、消极的网络舆情对社会稳定和国家安全的影响也越来越大。针对网络舆情进行有效采集在预防不良信息的传播,稳定社会秩序,保证公共安全方面有着重要意义。本文重点研究分析及改进了网络舆情采集系统的关键技术:文本聚类,设计并实现了一个网络舆情采集原型系统。1、本文对文本聚类中的Single-Pass算法进行了改进。作为基于机器学习的网络舆情采集技术,无监督机器学习的文本聚类算法是其核心。Single-Pass算法虽然对网络信息的话题提取有较为优异的性能,但是该聚类算法对于文本输入顺序的依赖性较强,对于相同的数据集,输入数据不同可能导致聚类结果的差异。本文设计了一种基于双阈值的Single-Pass算法,通过建立中间状态规范簇类中心向量的偏移来降低对输入顺序的依赖性强度。此次改进通过实验证明对文本聚类的性能有较大提升。2、本文改进了基于DOM树改进的正文提取方式,该方式结合中文字符和非链接文字的分布比率来优化传统的基于DOM树的正文提取方法,提升了舆情采集系统中正文提取的精确性。3、本文构建了基于机器学习的网络舆情采集系统架构,设计并实现了原型系统,并对其核心模块和系统整体进行测试。
其他文献
在高中学习中,学生都感到物理是比较难学的一门学科,主要是物理知识比较抽象.而高中教学任务重,所以在普通教学中实验往往被淡化。要提高学生学习兴趣.教师要在物理教学中改
本文以从1998—2013年黄河流域122个站点的降水数据为研究对象,在年、季、月时间维度上借助相关系数与均方根误差对站点的TRMM(Tropical Rainfall Measuring Mission)降水数据
目的观察探讨脊柱侧弯后路矫形术的护理配合方法及其效果,总结其临床价值。方法选取2010年5月至2010年7月骨二科和骨科各1例脊柱侧弯后路矫形术患者的临床案例,进行回顾性分
目的:了解卫生事业管理专业本科生对开设实践课程的态度与认识。方法:采取问卷调查法,对哈尔滨医科大学2014、2015、2016级卫生事业管理专业本科生进行调查,并进行统计描述分
物理模型作为一种有效的教学手段和学习方式,在教学活动中取得的成效得到了教师的广泛认可,但在生物模型研究领域,涉及到学生如何更好地制作适合教学的物理模型以及学生自制
为了确定宁波市教育投入与经济增长的关系,选用了宁波市1996-2013年的相关数据进行定量分析。运用Pearson相关系数、平稳性检验、协整分析建立误差修正回归模型。得出结论:宁
大学生公益创业有利于弘扬志愿服务精神和公益创业精神,提高大学生的社会实践能力和创新创业能力,促进公益事业发展和社会和谐进步。针对当前我国大学生公益创业培育科学认识
海牙《国际诱拐儿童民事方面的公约》(以下简称海牙《诱拐儿童公约》)是解决国际儿童诱拐问题的国际性公约,到目前为止已有91个缔约国,是一个得到国际社会广泛认同和有效实施
围绕建构主义和教学改革的关系,从其必然性、可行性、存在的问题及应把握的重点进行论述.通过分析其哲学基础、理论基础、物质基础和社会基础,论证了建构主义和教学改革关系
进口集流器设计中的几个问题沈阳市化学工业学校步群,顾立香根据文献[1]的规定,在通风机空气动力性能试验时,无论是采用风管式进气试验、风管式进出气试验或进气风室试验,在试验装置