论文部分内容阅读
随着数据存储量的急剧增加,海量数据处理和海量数据计算成为了数据挖掘领域中一个重要的问题。传统的串行数据挖掘算法往往只能够处理一些小规模的数据,当面对海量数据时,它们的执行速度会降低甚至无法运行,因此这对目前的数据挖掘提出了严峻的挑战和考验。而分类算法作为数据挖掘中极其重要的一个部分,在信息检索、网络搜索以及CRM等方面扮演着重要的角色。目前绝大多数的分类算法都是串行的,在处理大数据集时可行性差、效率低、分类准确率低的问题日益突出,导致了计算资源的不可估量以及执行时间的无限延长。现代社会所处理的数据是海量的,在云计算出现以前,在做数据挖掘时以往都期望用高性能机或者是更大规模的计算设备来进行处理;另外在海量数据的背景下,挖掘过程当中需要有很好的开发环境和应用环境,在这样的情况下,采用基于云计算的方式来进行数据挖掘是比较合适的。而且由于目前并行分类算法的缺少,大规模数据集日益庞大,传统的数据挖掘系统已经不能对这些海量数据进行高效挖掘和利用,如何提高算法的并行性和效率是目前亟需解决的问题。本论文以实验室粤港关键领域重点突破项目为基础,分析和研究了舆情分析系统项目中应用到的海量数据挖掘的相关技术。由于舆情分析系统处理的数据都来自因特网,每天需要处理的数据量非常庞大,要对这些海量数据集进行训练和分类,就必须保证舆情分析系统能维持在一个稳定、高效的环境。如何提高舆情分析系统分类的效率和性能,是本论文要解决的问题。本论文的先进性在于,分类算法在舆情分析系统中是非常重要的一部分,根据舆情分析系统的需求分析和系统设计,为舆情分析系统设计了一种基于Strategy模式的分类算法模块。并且设计了不同的并行分类算法,通过在MapReduce框架下对分类算法的封装,大大提高了算法的运行效率,使得分类算法的加速比接近于线性加速比。舆情分析系统根据这个算法模型,可以动态地调用不同的分类算法对舆情数据进行分类,提高了系统分类算法的性能和效率,从而大大提高了舆情分析系统的稳定性和可靠性。