基于云计算的网络舆情监控关键技术研究

来源 :内蒙古工业大学 | 被引量 : 2次 | 上传用户:huangjh9246
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络舆情作为社会舆论的重要表现形式,伴随着互联网的普及而迅猛发展,进而影响着现实社会。面对我国相当数量的网络群体,部分别有用心的人或团体,容易借助网络舆情突发性、随意性、隐蔽性等特点,针对一些社会敏感、焦点和热点等话题,匿名地发表各自的诸多看法,从而引导话题偏向错误的方向,进一步对国家的安定和团结带来较大的安全隐患。因而利用计算机技术对网络舆情进行监测已成为热点问题,并具有较强的现实意义,本文就网络舆情监控系统关键技术中的热点发现进行探究。本文基于网络舆情监控系统和热点发现算法的研究现状,重点介绍了经典SinglePass等聚类算法,这些算法对海量高维文本的处理效率较低,无法及时发现潜在的网络舆情话题;研究了局部敏感哈希特性,并通过引入SimHash算法,在海量高维数据中快速发现相近的候选数据对象,从而缩小查找最相似数据对象的范围,进而提高热点话题发现SinglePass算法聚类的效率;并借助于云计算分布式处理框架Storm,利用其分布式特点,结合SimHash算法的特性,编写了分布式改进SinglePass算法的Topology,实现了对单机的SinglePass算法的分布式改造,从而设计了基于Storm平台和SimHash算法实时热点话题发现算法。本文针对SimHash算法,设计了相似文本获取的验证性实验,结果表明该算法能够很大程度上准确找到最相近的文档,进而证明在聚类质量相近的情况下,SimHash算法的引入能够明显提高SinglePass算法的聚类效率。同时基于Storm平台,根据设计的Topology,通过实验对整体方案进行验证,实验结果证明改进后的SinglePass热点话题发现算法可以提高实时数据的处理效率。因而本文所给出的基于SimHash的Storm平台热点发现机制,在保证准确性的同时能够解决传统算法的效率问题,提高了网络舆情监控系统的效率,可为网络舆情监控系统的研发和应用奠定基础。
其他文献
本文通过分析和大量的仿真实验证明了SCTP在有线和无线环境中传送主流应用时具有的优于TCP的特点。  首先是SCTP支持多宿主机的特点,可以提供网络级容错,其次是其基于流控制
随着移动通信网络规模的不断扩大以及市场竞争的日趋激烈,提供多样化、层次化的业务已成为运营商提高服务水平和赢得竞争的重要手段之一。电信运营的发展也从单一的基础网络的
随着网络的不断发展,新的网络技术应运而生。一个原始设计的网络由于在提供负载的变化和流量特征等方面不能令人满意。网络资源例如网络节点或链路因为资源保留和网络拓扑的
作为解决大规模计算问题的重要手段,高性能计算越来越广泛地应用到科学与工程的各个领域。随着高性能计算的快速发展,有两个现象值得关注:一方面,并行计算机的峰值性能提升迅速,理
网络中各种物理设施都需要相应操作系统的支持。操作系统类型作为一个重要的网络特征值,对于攻击者和网络管理者都非常有价值。一般情况下,具体的系统漏洞都与具体的操作系统
为了更快更好地推出新的语音业务,进一步降低运营风险,中国移动计划在全国范围内建设独立的语音增值业务平台,并向业务/内容提供商开放,从而引入更多新业务的竞争,以推动智能业务向
信用是MAS的协作和合作的基石。多Agent之间的信任是MAS合作的前提,也是促进多Agent合作的一个关键因素。纵观现有的各类MAS信用模型,一直存在宏观和微观脱节的问题。在研发“
准确判断温度及温度分布情况在很多领域都具有重要的意义和作用,它广泛应用在航空航天、军事和工业生产领域中。研发专用的示温漆图像识别系统,克服人工分析的弊端,使分析过程数
近几年,代数攻击成为一种新的密码分析技术,很多密码算法都无法抵抗这种攻击方法,像分组密码、流密码、公钥密码甚至是 hash函数都受到了威胁。随着代数攻击的出现,代数免疫度成
CORBA(CommonObiectRequestBrokerArchitecture)为企业提供了独立于语言和网络协议的互操作性标准框架,简化了普通分布式应用的开发。随着CORBA的逐渐成熟,以及越来越多的CORBA