基于Hadoop的密度聚类算法并行化分析与研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:menangchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的快速发展,大量移动网络设备不断增加,与设备功能相关的数据量呈现爆炸式的增长,包括社会生产数据和科学数据。学术界和工业界都对如何从海量数据中获取知识有迫切需求。本文通过对DBSCAN密度聚类算法进行深入研究后,针对传统DBSCAN算法的计算时间复杂度高和对中文地址信息处理较困难两个缺点进行改进提高。一是设计出一个中文地址数据的去“噪声数据”和映射中文地址数据的流程;二是迁移传统DBSCAN算法,使其符合MapReduce编程模式;三是为了提高数据划分的效率,在数据分区算法PRBP的基础上提出一种新的数据分区算法PRBP-DI (PRBP-Double Index).最后将改进的算法运行在Hadoop2.2云计算平台上。实验结果表明,原始数据经过去“噪声数据”和映射中文地址数据的预处理后,得到了只包含待研究数据的ID和经纬度属性值。并且提取的数据映射到二维空间的图形与中文地址代表的具体地址相同,通过反向映射可得到原中文地址,说明中文地址预处理流程是有效地;在相同数据量的计算对比中,改进的PRBI-DI的分区算法分区耗时是PRBP算法的四分之一至三分之一,证明了PRBP-DI分区算法更高效;最后在Hadoop 2.2平台上采用改进DBSCAN算法并行计算分布在不同节点上的数据块,得出的聚类数和传统DBSCAN算法相同,并且与传统DBSCAN算法相比聚类耗时更少。以上两个改进算法和一个原始数据预处理流程,在海量中文地址数据处理的效率和准确性上都有一定的提高。
其他文献
近年来,随着生物信息学领域的迅速发展以及应用,人们获取了海量的生物数据,如何从这些海量数据中挖掘出有价值的生物信息,逐渐成为生物信息学领域的研究热点。高通量生物技术
在智能化迅速发展的今天,行为识别已经得到了广泛的关注,并且已经成为计算机视觉领域研究的重要内容之一,可以广泛应用于人机交互,视频监控,智能机器人的领域中。而视角无关
伴随着计算机技术的不断发展,实时系统的应用范围不断地扩大,其系统规模和复杂程度也不断地提高,具体表现在多种类型的实时应用,包括硬实时应用、软实时应用以及非实时应用共
轨道交通这样的实时系统对时间的要求及其严格,要保障轨道交通运营场景的安全性,就需要对运营场景进行安全检测,而保证系统安全性的关键任务就是实时系统的时间约束的满足性。针
随着电力系统自动化水平的不断提高,更多的遥测、遥控信息需要准确的传输。扩频通信与常规的通信系统相比,具有很强的抗人为干扰、抗窄带干扰和抗多径干扰的能力等等。而扩频所
数据挖掘是近些年来发展起来的新技术,通过数据挖掘,人们可以发现数据背后隐藏的有价值的、潜在的知识,为科学地进行各种商业决策提供强有力的支持。随着数据挖掘技术的迅速发展
随着计算机图形技术的飞速发展,利用计算机对自然界中植物的仿真己成为目前一个重要的研究课题,同时也受到了越来越多研究人员的关注。其在农林业研究、绿化景观设计、教育、
基于HFC(Hybrid Fiber Coax)的CMTS(Cable ModemTermination System)宽带接入方式具有经济,带宽高,覆盖范围广的优点,是一种发展前景广阔的宽带接入技术。但要在HFC上提供综