基于分布式计算的AP聚类并行化方法研究与应用

被引量 : 0次 | 上传用户:hifithink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种基于数据对象的特征对数据集进行聚合的数据挖掘方法,主要目的是聚集相似的数据对象。随着传统互联网及移动互联网的飞速发展,企业和用户产生的数据呈爆炸式增长,面对海量数据时传统的聚类挖掘计算极为耗时,不能有效地满足数据挖掘的时效性需求。因此,为了应对海量数据的处理,算法优化与并行化研究成为热点。AP聚类算法是近几年提出的一种新型的方法,目前已被广泛研究与应用。与K-Means等算法相比,AP聚类不需要预设聚类中心,它把每个数据对象都视为潜在的聚类中心,通过数据对象间相互传递消息自动产生聚类中心。但这种聚类算法的时空复杂度较高,随着数据量的增大,整个计算耗时也迅速增大。为了使AP聚类算法能有效应用于海量数据分析,本文即主要研究并实现AP聚类算法的并行化方法,使聚类算法可在云计算集群环境下自动高效地并行化执行。Hadoop是一种开源的分布式计算框架,基于Google的MapReduce并行化思想将并行化的底层实现细节作了封装,使得开发人员只需关注并行的策略方法。针对Hadoop在处理迭代式算法的不足,Berkeley提出了Spark分布式内存计算框架,通过将数据转化为RDD进行缓存有效提升了迭代式算法的执行性能。本文在分析两种计算平台的特点基础上,首先设计实现了并行的AP聚类算法,并分析了并行算法的性能以及两种平台下并行算法执行的性能差异;再通过KDD99的入侵检测海量数据集的测试实验,表明在两个计算平台下并行AP聚类算法都具有良好的加速比和扩展性,且经由Spark内存计算框架的优化,AP聚类算法的执行可获得更高的效率,更适合海量数据的聚类分析应用。本文最后设计开发了一个基于云计算的聚类分析应用服务平台,即在后台将AP并行聚类等算法的实现无缝集成封装到Hadoop和Spark平台,对外则提供简单易用的Restful服务接口,同时提供可供本地调用的云聚类服务SDK,使开发者可直接调用并行化的聚类算法,有效屏蔽云计算底层实现细节,便于一般开发人员快速应用聚类云计算服务。
其他文献
目的观察小剂量糖皮质激素辅助治疗支原体肺炎(MPP)的临床疗效及对细胞免疫水平的影响,并探讨其作用机制。方法选取医院收治的MPP患儿133例,按随机数字表法分为研究组68例和
重点介绍带式输送机运行中的常见故障,通过对带式输送机输送带跑偏原因的浅谈以及带式输送机输送带跑偏对生产产生的影响,总结出带式输送机输送带跑偏的基本规律,并进一步具
本文通过设计尺寸链分析东风汽车公司车身厂平头车型EQ1141G的驾驶室车门周边间隙,概述了设计尺寸链的建立方法,建立和解算了主要设计尺寸链,得出了符合现生产实际的分析结论
网龙最新出品的"91手机助手概念版"集合了主流的智能手机操作系统,包括了iPhone、Android、Windows Mobile(WP7)、塞班S60和S40,实现了只需要一个版本就能管理所有的智能手机
<正>6月下旬,全国人大常委会分组审议2009年中央决算报告时,开展了专题询问活动。受国务院委托,财政部多位负责官员到会,认真回答了一系列与决算报告有关的问题。有关消息表
在对海明威《老人与海》的众多研究中,关于"童性"的研究确少有涉及,但它却对小说人物的塑造与主题的拓展起到了重要的作用。本文从文本分析的角度,着重开掘从老人与曼诺林的
培育大学生民族精神以增强文化自信的意义,引领学生成长为时代新人的根本要求,为实现中华民族伟大复兴凝心聚力,推动构建人类命运共同体的必然选择。培育大学生民族精神认同
<正>"几种常见的磁场"是人教版普通高中新课标实验教材《物理》选修3-1第3章"磁场"第3节的内容.本节教材内容在初中的基础上有了很大的提高和拓展,本节课重点放在电流周围磁
以减振型板式轨道为研究对象,运用ANSYS有限元软件,建立减振型板式轨道的三维实体有限元计算模型,对不同结构尺寸以及不同扣件刚度与支承间距条件下的轨道结构进行了模态分析
少数民族学生辍学原因是多方面的,我们要了解其真正原因,必须关注其实践生活,布迪厄的实践理论提供了一个有关结构与人关系的理念框架,有助于阐释社会生活中实践的奥秘。本文以之