论文部分内容阅读
空间数据挖掘的主要特征是分析空间关系,然而,某特定空间的属性总是联系的,且能由其邻接对象的属性来解释。相对于关系数据库里的挖掘,空间数据挖掘算法为了提取有用的知识,需要考虑邻接对象,由于相邻空间对象的特性总是具有相似或关联的特点,以邻接关系建立的邻接图为基础的算法研究就成为空间聚类算法研究的一个重要方向。
空间数据挖掘,也称基于空间数据库的数据挖掘和知识发现(Spatial Data Mining andKnowledge Discovery),作为数据挖掘的一个新的分支,是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其它一些隐含在数据库中的普遍的数据特征(Han,1996)。简单地讲,空间数据挖掘是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、规则和知识的过程。
空间数据挖掘能发现关联知识、分类知识、偏差型知识、聚类知识和预测型知识等知识类型。一般通过GIS的查询功能就能提取出来某些“浅层知识”,如某区域有无商场、银行网点、某段河流的长度和最大宽度等:但一些“深层知识”,如空间位置分布规律、空间关联规则、形态特征区分规则等,它们没有直接存贮于空间数据库中,必须通过运算和挖掘算法才能发现。
空间聚类是指将空间数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的空间对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。聚类方法可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。
空间邻接关系是空间实体之间由于空间位置和形状的不同而造成的相互之间的各种联系。空间数据挖掘对象有三种基本类型的空间关系:拓扑、距离和方向关系。本文研究的空间矢量数据就是代表地图图形的各离散点平面坐标(x,y)的有序集合,是常见的图形数据结构,主要用于表示地图图形元素几何数据之间,及其与属性数据之间的相互关系。
邻接图是由空间物体的节点集(点空间物体)和边界集(线和多边形空间物体),针对一些空间邻接关系(拓扑、相距、方位)组织起来的一个图,邻接图中的每一个顶点对应于空间数据库的一个物体,当空间邻接依据(拓扑、相距、方位)成立时,两个节点由一些节点连结起来。在邻接图中用存在连结边的节点定义一个节点表,这个表形成的就是一条邻接路径,并定义这条路径上的节点的个数为这条路径的长度。
本文针对空间邻接对象的特征总是相似或相关联的特点,引入邻接图和邻接路径的概念。由于空间对象的特性受其邻接对象的影响和作用,随着距离的增加或减少而发生变化,如果在空间聚类分析前能建立空间对象的邻接图,能计算邻接图中空间对象邻接点的数量和获得邻接图的路径,不但可以改善传统空间聚类挖掘算法的性能和聚类结果的质量,而且邻接图占内存小,也能减少算法的时间复杂度。本文设计的邻接图系统结构大致分为三层,第一层是数据源,指利用空间数据库或数据仓库管理系统提供的索引、查询优化等功能获取和提炼与空间邻接关系以及聚类分析问题领域相关的数据,或直接利用存储在空间立方体中的数据,这些数据可称为构建邻接图的数据源或信息库。第二层是依据空间邻接关系(拓扑、相距、方位)构建邻接图,并且计算各个空间对象的邻接点和邻接路径。以满足用户聚类分析的需求。第三层是用户界面,使用多种方式,如对话框,菜单、可视化工具等,将建邻接图需要的参数反映给系统,系统能以文本或图形显示邻接图给用户,用户对建立的邻接图进行分析和评价,并提供给空间决策支持使用,或将邻接图的结构存入关系数据库内。
本文认为邻接图是数据库中空间对象依据空间邻接关系动态建立的,并且往往数据库中表示空间对象的节点数量很大,而对象之间满足邻接关系的边的数量较少,宜采用邻接表存储结构,能节省大量的存储空间。结合空间数据库中空间关系和专题属性数据的特征和编码方法,设计存储与建立邻接图和聚类分析所需数据的关系模式,最后依据范式规范化理论优化关系模式。
本文依据某一空间邻接关系设计邻接图的邻接表存储结构的基础上,用c++语言编程实现建立邻接图算法,采用拟合空间数据,即采用人工生成的空间数据库的高维数据,测试邻接图算法的是行之有效的。
本文在设计邻接图结构的基础上,改进基于密度的空间聚类算法,该算法以DBSCAN算法为基础,算法分为两个阶段:第一阶段是邻接图生成。算法对空间实体数据集构建邻接图;第二阶段是生成聚类-簇集,主要操作是识别核心对象和噪音。最后采取拟合数据来测试聚类效果,即采用人工生成的数据库来对邻接图的密度聚类算法进行测试。在时间复杂性上,由于邻接图能直接调入内存,按照邻接图索引进行密度聚类,能大量减少频繁的I/O操作,提高运算效率。改进的密度聚类将具有高密度的空间区域划分为类,并能在带有“噪声”的空间数据库发现任意形状的聚类。但不足之处,算法对用户定义的参数敏感,Eps,MinPts的不同取值,会导致聚类结果的很大差别。
本文最后对论文工作进行了总结,并提出了下一步研究方向。