基于云计算的海量数据挖掘分类算法研究

被引量 : 0次 | 上传用户:venly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据存储量的急剧增加,海量数据处理和海量数据计算成为了数据挖掘领域中一个重要的问题。传统的串行数据挖掘算法往往只能够处理一些小规模的数据,当面对海量数据时,它们的执行速度会降低甚至无法运行,因此这对目前的数据挖掘提出了严峻的挑战和考验。而分类算法作为数据挖掘中极其重要的一个部分,在信息检索、网络搜索以及CRM等方面扮演着重要的角色。目前绝大多数的分类算法都是串行的,在处理大数据集时可行性差、效率低、分类准确率低的问题日益突出,导致了计算资源的不可估量以及执行时间的无限延长。现代社会所处理的数据是海量的,在云计算出现以前,在做数据挖掘时以往都期望用高性能机或者是更大规模的计算设备来进行处理;另外在海量数据的背景下,挖掘过程当中需要有很好的开发环境和应用环境,在这样的情况下,采用基于云计算的方式来进行数据挖掘是比较合适的。而且由于目前并行分类算法的缺少,大规模数据集日益庞大,传统的数据挖掘系统已经不能对这些海量数据进行高效挖掘和利用,如何提高算法的并行性和效率是目前亟需解决的问题。本论文以实验室粤港关键领域重点突破项目为基础,分析和研究了舆情分析系统项目中应用到的海量数据挖掘的相关技术。由于舆情分析系统处理的数据都来自因特网,每天需要处理的数据量非常庞大,要对这些海量数据集进行训练和分类,就必须保证舆情分析系统能维持在一个稳定、高效的环境。如何提高舆情分析系统分类的效率和性能,是本论文要解决的问题。本论文的先进性在于,分类算法在舆情分析系统中是非常重要的一部分,根据舆情分析系统的需求分析和系统设计,为舆情分析系统设计了一种基于Strategy模式的分类算法模块。并且设计了不同的并行分类算法,通过在MapReduce框架下对分类算法的封装,大大提高了算法的运行效率,使得分类算法的加速比接近于线性加速比。舆情分析系统根据这个算法模型,可以动态地调用不同的分类算法对舆情数据进行分类,提高了系统分类算法的性能和效率,从而大大提高了舆情分析系统的稳定性和可靠性。
其他文献
能源问题是当今国际经济中一个焦点问题。中印均为能源进口国。随着两国经济的快速发展,能源需求缺口不断加大。为了各自的能源安全战略,进口能源已成为两国能源资源的重要来
随着社会经济的进步和人民生活水平的不断提高,拉萨市的建筑规模和建筑能耗都有了大规模的提高。通过两次冬季现场调研,拉萨市现有集合式居住建筑的室内温度分布,室内热环境
本文对儿童游戏空间进行综述,通过分析相关研究资料阐述了儿童游戏空间研究现状,并提出目前研究存在的问题和今后的研究方向。
按照技术分类方法将页岩气开采技术分为增产技术和监测技术,并对主要的页岩气开采技术进行了综述分析,涉及水平井技术、分段压裂技术、同步压裂技术、重复压裂技术、清水压裂
对某电厂改造后220 t/h燃煤锅炉中间储仓式制粉系统进行优化运行调整试验,分析了粗粉分离器叶轮转速、轴向挡板开度以及再循环风门开度对煤粉细度的影响,通过试验提出该制粉
当前,中国传统英语教学的弊端导致多数学生词汇学习困难重重,词汇量成了英语学习的桎梏,而词汇在语言学习和应用中的地位是非常重要的,是英语各项基本技能的基础。因此,现结
软交换技术是实现下一代网络VoIP的一个最佳解决方案,它采用SIP协议来完成软交换平台下VoIP中呼叫的建立、修改和释放过程。SIP协议被公认为下一代互联网的核心控制协议,其设
微测辐射热计型非制冷红外探测器由于其便携性好、成本低和卓越的性能等优点,近年来成为红外探测器研究中的热点。然而,传统单牺牲层器件填充率的提高和器件的热学性能的提升
目的探讨创伤负压引流技术应用于急慢性创伤创面的效果。方法将急慢性创伤病人40例随机分为两组,各20例。对照组予常规换药治疗,观察组给予创面负压引流治疗,比较两组治疗结果、
简述了2006年我国重要越夏区西北和川西北小麦条锈病菌越夏概况和特点,分析了条锈病越夏菌量低的原因,提出了进一步对小麦条锈病菌源区精准勘界、验证和评价定西和临夏等地菌