论文部分内容阅读
网络舆情作为社会舆论的重要表现形式,伴随着互联网的普及而迅猛发展,进而影响着现实社会。面对我国相当数量的网络群体,部分别有用心的人或团体,容易借助网络舆情突发性、随意性、隐蔽性等特点,针对一些社会敏感、焦点和热点等话题,匿名地发表各自的诸多看法,从而引导话题偏向错误的方向,进一步对国家的安定和团结带来较大的安全隐患。因而利用计算机技术对网络舆情进行监测已成为热点问题,并具有较强的现实意义,本文就网络舆情监控系统关键技术中的热点发现进行探究。本文基于网络舆情监控系统和热点发现算法的研究现状,重点介绍了经典SinglePass等聚类算法,这些算法对海量高维文本的处理效率较低,无法及时发现潜在的网络舆情话题;研究了局部敏感哈希特性,并通过引入SimHash算法,在海量高维数据中快速发现相近的候选数据对象,从而缩小查找最相似数据对象的范围,进而提高热点话题发现SinglePass算法聚类的效率;并借助于云计算分布式处理框架Storm,利用其分布式特点,结合SimHash算法的特性,编写了分布式改进SinglePass算法的Topology,实现了对单机的SinglePass算法的分布式改造,从而设计了基于Storm平台和SimHash算法实时热点话题发现算法。本文针对SimHash算法,设计了相似文本获取的验证性实验,结果表明该算法能够很大程度上准确找到最相近的文档,进而证明在聚类质量相近的情况下,SimHash算法的引入能够明显提高SinglePass算法的聚类效率。同时基于Storm平台,根据设计的Topology,通过实验对整体方案进行验证,实验结果证明改进后的SinglePass热点话题发现算法可以提高实时数据的处理效率。因而本文所给出的基于SimHash的Storm平台热点发现机制,在保证准确性的同时能够解决传统算法的效率问题,提高了网络舆情监控系统的效率,可为网络舆情监控系统的研发和应用奠定基础。