论文部分内容阅读
随着信息时代的快速发展,大量移动网络设备不断增加,与设备功能相关的数据量呈现爆炸式的增长,包括社会生产数据和科学数据。学术界和工业界都对如何从海量数据中获取知识有迫切需求。本文通过对DBSCAN密度聚类算法进行深入研究后,针对传统DBSCAN算法的计算时间复杂度高和对中文地址信息处理较困难两个缺点进行改进提高。一是设计出一个中文地址数据的去“噪声数据”和映射中文地址数据的流程;二是迁移传统DBSCAN算法,使其符合MapReduce编程模式;三是为了提高数据划分的效率,在数据分区算法PRBP的基础上提出一种新的数据分区算法PRBP-DI (PRBP-Double Index).最后将改进的算法运行在Hadoop2.2云计算平台上。实验结果表明,原始数据经过去“噪声数据”和映射中文地址数据的预处理后,得到了只包含待研究数据的ID和经纬度属性值。并且提取的数据映射到二维空间的图形与中文地址代表的具体地址相同,通过反向映射可得到原中文地址,说明中文地址预处理流程是有效地;在相同数据量的计算对比中,改进的PRBI-DI的分区算法分区耗时是PRBP算法的四分之一至三分之一,证明了PRBP-DI分区算法更高效;最后在Hadoop 2.2平台上采用改进DBSCAN算法并行计算分布在不同节点上的数据块,得出的聚类数和传统DBSCAN算法相同,并且与传统DBSCAN算法相比聚类耗时更少。以上两个改进算法和一个原始数据预处理流程,在海量中文地址数据处理的效率和准确性上都有一定的提高。