【摘 要】
:
近年来,随着信息技术和数据库技术的迅猛发展,尤其是互联网的广泛应用,需要分析和管理的数据迅速增多。数据挖掘技术便应运而生,聚类分析是数据挖掘领域的重要内容和基本工具
论文部分内容阅读
近年来,随着信息技术和数据库技术的迅猛发展,尤其是互联网的广泛应用,需要分析和管理的数据迅速增多。数据挖掘技术便应运而生,聚类分析是数据挖掘领域的重要内容和基本工具,研究如何提高聚类算法的性能具有重要的意义。云计算作为目前国内外研究的热点,是网格计算、并行计算和分布式计算的发展。利用云计算技术,人们可以通过网络获得强大的计算能力、存储能力以及基础设施,并可以有效地解决分析与处理海量数据时所面临的问题,在降低终端设备要求的同时提高数据处理能力。本文主要研究如何利用云计算机集群系统的并行计算能力来解决海量数据聚类问题。首先,本文在重点分析了DBSCAN算法的基础上,提出了一种基于层次的HDBSCAN算法。该算法不仅纠正了由于输入参数Eps选择不当而造成的聚类结果不佳的问题,屏蔽了算法对输入参数的敏感性;而且无需对每个点进行检测和判断,从而减少了查询次数,降低了I/O开销。接着,利用Hadoop搭建云计算环境,在云计算环境下对HDBSCAN算法进行研究,将HDBSCAN算法与MapReduce编程模型结合。最后,在云计算环境下对算法功能和性能进行测试和比较。实验结果表明在集群中部署HDBSCAN算法可以有效提高聚类效率。论文对基于云计算的聚类算法做了有益研究工作。
其他文献
随着计算机的大量普及,各行各业的信息化进程也不断加快,各种信息化系统不断涌现。数据库作为应用系统的数据来源,随着这些信息系统的长期使用,数据库中的各种业务数据不断积
近年来,随着越来越多的外资银行涌入中国市场,银行间争夺优质客户和扩大市场份额的竞争日益激烈。大型国有银行先天就具有一定的竞争优势,其他银行业金融机构如何在大型银行的夹
截止2013年6月底,我国网民规模已经达到5.9亿,互联网已经广泛地被应用到日常工作、生活中的方方而面。然而,随着网民数量的急剧增加,区分IP地址的来源在许多互联网应用或对安
在现实生活中,人们常常因为拥有相同的出行目的地而组成一个旅客团体共同乘机出行。推断民航旅客团体出行目的是一个非常有趣且有价值的研究问题,因为推断结果能为各个航空公
近些年来电子商务不断发展,产生了很多垂直领域的电子商务,使电子商务的功能更加细分,其中国内用户对于海外电子商务购买的需求渐渐地成长起来,催生了很多相关电子商务系统,淘日网
颜色迁移(color transfer)是图像非真实感绘制和图像编辑的重要技术,既可以实现彩色图像间的颜色迁移,也可以为灰度图像着色。在计算机动画、影视编辑和图像风格化渲染中有重
随着社会的进步和信息技术的发展,特别是在“智慧城市”、“智慧地球”等理念提出后,人们越来越重视智能信息融合系统的开发。通过智能信息融合系统不仅可以达到智能监控的目
基于构件的软件工程(CBSE)由于可实现构件的复用及“即插即用”的特点,大大缩短了软件开发的周期,降低开发及维护的成本,已经成为面向对象软件工程领域的研究热点。同时,随着构件
随着计算机技术和网络技术的不断发展,各种新的媒体信息交换和应用形式已经完全融入了人们的日常工作、生活和娱乐之中,每天都在产生大量的视频数据。在医学领域同样也存在大
随着计算机技术的不断进步,掌纹识别技术已逐渐成为在模式识别、人机交互和机器学习等核心领域中的研究热点之一。掌纹识别具有侵犯性低、成本低、稳定性好等优点,已受到业界