【摘 要】
:
近年来随着信息产业的迅速发展,数据挖掘得到了广泛的应用。数据挖掘主要包括关联分析,分类,聚类等应用。聚类是数据挖掘的一个重要研究方向。传统的聚类算法包括划分方法、
论文部分内容阅读
近年来随着信息产业的迅速发展,数据挖掘得到了广泛的应用。数据挖掘主要包括关联分析,分类,聚类等应用。聚类是数据挖掘的一个重要研究方向。传统的聚类算法包括划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。聚类可以有效处理大量复杂没有类标志的数据集,广泛应用于金融业,生物学,天文学等多个领域。本文首先介绍了数据挖掘的相关概念,然后详细介绍了传统的聚类算法,划分聚类和密度聚类比较常用,但是传统的聚类算法本身存在许多问题,比如容易受数据输入顺序影响以及孤立点影响等,降低了聚类的质量。所以本文主要对K-Means算法和DBSCAN算法进行分析和研究,提出改进思想,从而有效的提高算法质量。K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。本文主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣。实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布。DBSCAN算法是一种基于密度的聚类算法,可以在带有噪声的环境下发现任意形状的类。但是算法对输入参数Eps敏感,DBSCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响。本文主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀。实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确。
其他文献
随着计算机的普及,互联网用户数持续不断增长,网络上每天产生大量的数据。同时,一些具有大规模用户的信息系统,每天新增大量的数据。数据挖掘和机器学习算法为我们从繁杂的数据中
本刊讯(海南日报记者谭丽琳)3月21日下午,我省召开干部大会,传达全国“两会”精神。省委书记、省人大常委会主任卫留成在讲话中指出,海南到了改革发展的关键时期,又一次面临
目前大多数分布式文件系统采用静态备份机制保证系统的高可靠性,其要求文件的访问模式和存取节点范围在其生命周期中保持一致,由于用来备份的文件副本数量全局统一,忽略了文件重
随着互联网技术的不断发展,各种Web应用可能具有不同的开发环境、部署平台,甚至通信协议。如何使这些应用在网络环境中进行无缝集成,实现信息共享和交换,正变得越来越重要。W
λ演算是一个把函数当做方程式的理论,是一个把函数当做表达式操作的系统。它与可计算性、计算机科学、逻辑及数学等都有存在一定的联系。λ演算和图灵机是等价的。且它是函数编程语言的基础。此外,λ演算和逻辑系统也存在着奇妙的对应关系,这种对应关系称为Curry-Howard同构。我们还可以利用λ演算构造各种不同的数学模型。因此,对λ演算的研究,对计算理论、程序语言设计、逻辑及数学等都有重要的意义。标准化、C
Mount Todd金矿是澳大利亚唯一采用四段破碎流程的矿山,也是世界上可数几家采用这一流程的矿山之一。目前,新选厂已正式投产。 Mount Todd矿区的最大金矿床由坚硬的细粒结晶
选用IR72(籼稻)和日本晴(粳稻),在开花后遮光处理,对弱光条件下籽粒蔗糖含量的动态变化和降解酶的活性进行了研究。结果表明:两品种籽粒的蔗糖含量减少,蔗糖分解加快,蔗糖合
随着信息技术和数据库技术的迅猛发展,人们能够获取的数据也与日俱增,对数据的加工处理已经成为人们获取有用信息不可缺少的工具。数据挖掘是一种通用的知识发现技术,利用各
近年来,复杂网络的传播机制与传播动力学作为复杂网络的一个重要分支得到广泛的研究。复杂网络的研究内容非常广泛,涉及的学科门类众多。传播现象在自然界和人类社会生活中广
为了阐明细胞的内部工作机制,重建细胞内完整的蛋白质交互作用网络成为了分子生物学的一大挑战。由于最近发展起来的高通量技术,许多蛋白质之间的相互作用已被发现,并且用来存储