基于邻接图的空间聚类挖掘算法研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:hulianwu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间数据挖掘的主要特征是分析空间关系,然而,某特定空间的属性总是联系的,且能由其邻接对象的属性来解释。相对于关系数据库里的挖掘,空间数据挖掘算法为了提取有用的知识,需要考虑邻接对象,由于相邻空间对象的特性总是具有相似或关联的特点,以邻接关系建立的邻接图为基础的算法研究就成为空间聚类算法研究的一个重要方向。 空间数据挖掘,也称基于空间数据库的数据挖掘和知识发现(Spatial Data Mining andKnowledge Discovery),作为数据挖掘的一个新的分支,是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其它一些隐含在数据库中的普遍的数据特征(Han,1996)。简单地讲,空间数据挖掘是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、规则和知识的过程。 空间数据挖掘能发现关联知识、分类知识、偏差型知识、聚类知识和预测型知识等知识类型。一般通过GIS的查询功能就能提取出来某些“浅层知识”,如某区域有无商场、银行网点、某段河流的长度和最大宽度等:但一些“深层知识”,如空间位置分布规律、空间关联规则、形态特征区分规则等,它们没有直接存贮于空间数据库中,必须通过运算和挖掘算法才能发现。 空间聚类是指将空间数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的空间对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。聚类方法可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。 空间邻接关系是空间实体之间由于空间位置和形状的不同而造成的相互之间的各种联系。空间数据挖掘对象有三种基本类型的空间关系:拓扑、距离和方向关系。本文研究的空间矢量数据就是代表地图图形的各离散点平面坐标(x,y)的有序集合,是常见的图形数据结构,主要用于表示地图图形元素几何数据之间,及其与属性数据之间的相互关系。 邻接图是由空间物体的节点集(点空间物体)和边界集(线和多边形空间物体),针对一些空间邻接关系(拓扑、相距、方位)组织起来的一个图,邻接图中的每一个顶点对应于空间数据库的一个物体,当空间邻接依据(拓扑、相距、方位)成立时,两个节点由一些节点连结起来。在邻接图中用存在连结边的节点定义一个节点表,这个表形成的就是一条邻接路径,并定义这条路径上的节点的个数为这条路径的长度。 本文针对空间邻接对象的特征总是相似或相关联的特点,引入邻接图和邻接路径的概念。由于空间对象的特性受其邻接对象的影响和作用,随着距离的增加或减少而发生变化,如果在空间聚类分析前能建立空间对象的邻接图,能计算邻接图中空间对象邻接点的数量和获得邻接图的路径,不但可以改善传统空间聚类挖掘算法的性能和聚类结果的质量,而且邻接图占内存小,也能减少算法的时间复杂度。本文设计的邻接图系统结构大致分为三层,第一层是数据源,指利用空间数据库或数据仓库管理系统提供的索引、查询优化等功能获取和提炼与空间邻接关系以及聚类分析问题领域相关的数据,或直接利用存储在空间立方体中的数据,这些数据可称为构建邻接图的数据源或信息库。第二层是依据空间邻接关系(拓扑、相距、方位)构建邻接图,并且计算各个空间对象的邻接点和邻接路径。以满足用户聚类分析的需求。第三层是用户界面,使用多种方式,如对话框,菜单、可视化工具等,将建邻接图需要的参数反映给系统,系统能以文本或图形显示邻接图给用户,用户对建立的邻接图进行分析和评价,并提供给空间决策支持使用,或将邻接图的结构存入关系数据库内。 本文认为邻接图是数据库中空间对象依据空间邻接关系动态建立的,并且往往数据库中表示空间对象的节点数量很大,而对象之间满足邻接关系的边的数量较少,宜采用邻接表存储结构,能节省大量的存储空间。结合空间数据库中空间关系和专题属性数据的特征和编码方法,设计存储与建立邻接图和聚类分析所需数据的关系模式,最后依据范式规范化理论优化关系模式。 本文依据某一空间邻接关系设计邻接图的邻接表存储结构的基础上,用c++语言编程实现建立邻接图算法,采用拟合空间数据,即采用人工生成的空间数据库的高维数据,测试邻接图算法的是行之有效的。 本文在设计邻接图结构的基础上,改进基于密度的空间聚类算法,该算法以DBSCAN算法为基础,算法分为两个阶段:第一阶段是邻接图生成。算法对空间实体数据集构建邻接图;第二阶段是生成聚类-簇集,主要操作是识别核心对象和噪音。最后采取拟合数据来测试聚类效果,即采用人工生成的数据库来对邻接图的密度聚类算法进行测试。在时间复杂性上,由于邻接图能直接调入内存,按照邻接图索引进行密度聚类,能大量减少频繁的I/O操作,提高运算效率。改进的密度聚类将具有高密度的空间区域划分为类,并能在带有“噪声”的空间数据库发现任意形状的聚类。但不足之处,算法对用户定义的参数敏感,Eps,MinPts的不同取值,会导致聚类结果的很大差别。 本文最后对论文工作进行了总结,并提出了下一步研究方向。
其他文献
软件成本估算模型的目的在于帮助人们更好的理解软件项目的成本问题,进行准确的估算。因而,软件成本估算模型的广泛应用,一方面有助于软件采购方与开发者更好的理解软件成本,获得
学位
虚拟化技术源于上世纪60年代,近年来重新受到重视并得到快速发展,其核心思想是在一个物理主机上虚拟出多个虚拟计算机并在其上同时运行多个客户操作系统。虚拟化平台允许用户方
随着计算机技术特别是网络技术和数据库技术的发展,信息化系统在企业中变得越来越重要,越来越普及,但是由于企业自身特点和各经营环节对信息化需求的不同,许多早期的信息化系统的
PAC:S(Picture AI"chive and communicate System)系统是医疗领域一个倍受关注的发展方向,越米越多的医院中都已经或者需要部署PACS系统,PACS系统具有很人的市场潜力。PACS系统
随着网络技术的不断发展和企业应用系统的增加,企业集成中的“信息孤岛”问题日益严重。传统的应用集成方法复杂、缺乏灵活性,难以适应不断变化的企业需求。目前解决这一问题的
本文介绍了项重写系统研究的最新课题和动态项重写计算的基本理论,着重阐述了新的项重写系统等价性证明的归纳证明理论及最新研究进展,设计并实现了四种新的项重写系统重写策略
藏族人口众多,随着科学技术的飞速发展,藏文信息化的需求越来越迫切。藏文是一种拼音文字,但在文字处理方面却表现出了“方块字”的特点。 1997年,国际标准化组织通过了藏文编
随着软件规模的日益增大,软件的复杂度也越来越高,这就使得原本已经很费力的调试任务更加艰巨,特别是占调试任务大部分精力的错误定位,于是,依靠人力来进行软件排错越来越不切实际
随着计算机技术的广泛应用,现代科学技术的不断进步和生产制造业的迅速发展,出现了许多庞大而复杂的科研工程项目,它们工序复杂,协作面广,常常需要动用大量的人力、物力和财力。因
包装纸盒的三维仿真是指根据包装纸盒的平面展开图数据,用软件模拟出纸盒的折叠过程和最终的三维成型效果,以供设计者检查盒型是否满足设计要求。这样可以及早地发现设计失误,同