论文部分内容阅读
随着互联网的快速发展,互联网传播成为主要的社会信息传播方式,当社会上出现了突发的敏感事件时,公众舆论会迅速集聚在网络上,网络舆情事件也就随之形成。由于网络舆情具有内容丰富、信息量大、相关话题繁多等特点,这也让网络上更容易出现传统意义上的低俗、露骨、色情、暴力,甚至是危害国家和谐、稳定和安全的信息与言论,网络舆情热点发现可以帮助决策者快速准确的对网民聚焦的话题进行关注。网络舆情热点发现整个过程就是一个文本挖掘过程,但传统的文本挖掘过程难以适应网络舆情所具备的上述特性,故解决挖掘算法在效率、适应性和可用性等方面的瓶颈问题变得日益重要。基于上述背景,本文参考借鉴近年来文本挖掘领域的相关理论与技术的最新研究成果,对传统的文本挖掘模型进行了分析研究,并进行了包括数据采集、中文分词、特征提取、特征项权重计算、文本特征向量空间表示模型的建立、相似度分析、聚类算法和热度分析的实现。针对传统文本表示模型建立过程中存在的特征项过多的问题,结合网络舆情数据具备的短文本特性,给出了基于语义特征项频率的舆情短文本表示模型降维方法,以降低文本表示模型的维度;在聚类算法中选取了经典的增量聚类算法Single-Pass,针对该算法存在的不足,给出了改进Single-Pass聚类算法,以解决聚类过程中算法对输入数据顺序的敏感性和求解效率的问题,并提出了网络舆情热度分析模型;在上述工作基础上,对数据预处理部分和聚类分析部分进行了基于MapReduce的并行化处理和实验验证,并利用图表对求解效率和求解质量进行了分析。本课题所研究的基于云计算的网络舆情热点发现方法,在一定程度上解决了传统的文本挖掘模型在处理海量中文文本数据时能力不足的问题。本课题方案成本较低,易于扩展,可以作为一种有效的网络舆情监控手段,并应用在实际工作中。