论文部分内容阅读
微信伴随着互联网的飞速发展应运而生,作为一种新兴的社交平台,微信凭借其强大的社交功能迅速吸引了一大批用户群体,并成为人们相互之间交流和获得信息的重要途径。随着微信公众平台上线以来,涉及的范围越来越大,覆盖教育政治体育文化经济等各个领域,并且对社会舆论趋势有很大的影响,好的影响会引导舆论往正确的方向发展,不好的影响会误导社会舆论,可能会导致一些社会负面事件。如何避免不好的舆论影响并积极正确的引导社会热点信息的舆论发展方向是现如今重要话题,因此微信热点话题的研究有很大的社会价值和意义。本文将微信用于社会舆论热点信息的挖掘研究,根据微信数据的特点,设计了社会舆论信息挖掘的方法和流程。介绍和阐述了微信在社会舆论信息挖掘过程中的应用。在此基础上设计并设计了一个基于微信的社会热点信息分析系统。本课题的主要工作包括以下内容:首先介绍了课题的研究背景和研究意义,分析了国内外目前的研究现状。然后详细阐述了微信的特征,以及课题中用到的数据获取技术,包括Python语言和Scrapy框架。数据处理的参考标准以及原始数据的清洗方法,简要描述了聚类的基本概念以及聚类的经典算法——K-means算法。介绍了LDA文档主题生成模型,并利用LDA对初始数据进行文档主题生成。本文研究了K-means算法的基本思想和原理,同时分析了K-means算法的优缺点,针对K-means算法对初始值依赖的缺点,给出了改进初始聚类中心选取的算法,对改进后的算法进行了实验分析。实验结果表明:基于同一组实验数据,不同k值选择方法、不同的初始聚类中心条件下,改进的算法比传统K-means算法具有更准确的聚类效果。同时,将改进的算法应用于微信数据中,可以有效的提取热点事件中热点词分类,实现了微信热点分析与聚类技术的结合,达到了预期的效果。基于以上理论分析与实验证明,本课题为今后微信的热点分析和热点监测的深入研究,奠定了一定的理论和技术基础。