基于Spark的大数据聚类研究及系统实现

来源 :数据采集与处理 | 被引量 : 0次 | 上传用户:leilei247472145
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。
其他文献
为了有效利用不同关键词检测系统的互补性,解决不同系统检测结果置信度得分不在同一范围的问题,提出了一种基于得分规整和系统融合的语音关键词检测方法。首先,为了克服连续
目的探讨新生儿重症监护病房(NICU)中极低出生体重儿(extremely low birth weight infants,ELBWI)非先天性胆汁淤积(简称胆汁淤积)的发生率和相关危险因素。方法回顾性分析NICU中23
民用导航雷达的方位分辨率与天线孔径尺寸相关,大孔径天线在工程实践中受等多种条件制约,难以广泛应用。本文提出一种基于拉格朗日的方位超分辨方法。对方位信号向量进行数据
提出一种新的基于离散余弦变换(Discretecosintransform,DCT)及其逆变换的离散多音调制系统实现方案,利用IDCT/DCT变换替代IF?T/FFT变换实现多载波信号的调制与解调,并对该系统的峰均