论文部分内容阅读
经过十几年的研究和实践,数据挖掘技术已经吸收了许多学科的最新研究成果,而形成独具特色的结构分支。其中,聚类算法作为数据挖掘工具集中的一个模块,具有广泛的应用价值。典型的聚类算法有K-Means、CLARANS、BIRCH、CURE、DBSCAN等。GIS空间数据库里的数据主要有矢量数据和栅格数据,矢量数据按其用途可以拆分为几何数据和属性数据,不同类型的数据对其进行聚类用到的算法不尽相同。本文根据聚类算法性能优劣的比较,提取三种效果较好的聚类算法:MMC算法、基于网格和密度的算法以及数据场算法,对空间数据库中的二维矢量数据进行了聚类分析,克服了传统经典算法对数据输入顺序敏感、不能处理高维数据以及发现不了离群值和空洞等缺陷。
本文首先介绍聚类算法的发展现状,而后对空间数据的特征和聚类算法的性能进行了分析和比较。接着选取三种有效的聚类算法对二维几何点数据进行聚类,其中,MMC算法利用buffer分析(膨胀和侵蚀)完成聚类过程,能发现任意形状的聚类、离群值和空洞;基于网格和密度的算法将数据空间分割成网格(grid)状,将落到某个单元中的点的个数当成这个单元的密度(density),基于网格和密度的算法适用于高维数据,因为实验数据是二维的,所以采用clique算法完成了二维点数据的空间聚类;数据场算法将聚类看成动态的行为,引入了场和势函数的理论,数据场中的客体通过势函数相互作用,该方法对噪声数据具有较强的适应能力。
最后,利用VC++开发工具完成了MMC和clique算法的实现,并从多方面对算法进行测试。