论文部分内容阅读
随着数据和数据库的规模急骤增长,如何把数据变换成有用的知识是科学家亟需解决的问题,数据挖掘技术正是在这样的背景下应运而生的。数据挖掘被定义为从大量的数据中提取隐含的,事先未知的,潜在有用的信息和知识的过程。
近年来,从卫星、太空传感器、射电望远镜和其他传感平台每天都在收集大量的遥感图像数据,这些数据来不及处理就变成了档案被束之高阁。从这些海量的遥感数据中提取有趣的模式,对科技工作者来说极具挑战性。遥感图像挖掘的应用领域包括:精细农业、社区规划、资源发现、自然灾害预测、地理信息系统和环境评估等。
关联规则挖掘最早由R.Agrawal、T.Imielinski和A.Swami于1993年提出<(3)>。给定一个用户定义的最小支持度和最小置信度阈值,关联规则挖掘的问题就是找到所有满足最小支持度和最小置信度的关联规则。1994年,R.Agrawal和R.Srikant提出了Apriori算法<(4)>。随后,人们提出了大量有关关联规则的算法,如:AprioriTID算法,AprioriHybrid算法,FP-growth算法,DHP算法等<(5)>,它们大多是针对关系数据库和事务数据库提出的。目前对关联规则的研究也涉及到其他领域,如医疗诊断和遥感图像分析等。 将遥感数据与地面数据融合在一起,从中提取有用的关联规则,具有十分重大的实际意义<(6)>。但是,由于遥感图像数据量很大,而已有的关联规则挖掘算法扩展性很差,不能很好地适应遥感图像数据的挖掘任务,为此,我们研究了一种新的模型高效地实现遥感图像关联规则挖掘。本论文旨在结合遥感数据的特点,采用由美国北达科他州立大学WilliamPerrizo等提出来的一种新的数据结构<(7)>,即P-树数据结构来表示遥感图像数据,将用于关系数据库和事务数据库的挖掘算法进行适当修正,使之能适合遥感数据的挖掘。通过高效的P-树运算,简化了支持度的计算,避免了对整个数据库的扫描,改善了数据挖掘性能。
本实验主要步骤如下:
(1)使用bSQ格式来组织图像数据,采用等长度划分(equi-length)对遥感图像数据进行离散化处理。
(2)使用P-树数据结构来表示bSQ文件或Peano序列,做好了数据准备工作。
(3)通过实现P-树的AND运算,迭代计算满足最小支持度的频繁集计数。
(4)使用有效的剪枝策略,实现了遥感图像关联规则挖掘的P-ARM算法。
本文第一章简单回顾了遥感图像关联规则挖掘国内外研究现状,总结了本论文的研究内容和结构安排。
第二章介绍了数据挖掘的步骤,给出了关联规则的定义,讨论了几种常见的关联规则算法,包括:Apriori算法、FP-增长算法和DHP算法。最后介绍了其他的关联规则挖掘技术,如:量化的关联规则挖掘,多层关联规则挖掘和空间关联规则挖掘等。
第三章介绍了空间数据的三种常见的组织形式,并研究了一种新的文件组织形式bSQ文件组织。然后重点论述了P树的基本概念,变形形式PM-树,并分析了遥感图像数据转换成Peano序列的算法细节,研究了两种P-树的生成和存贮算法。接着介绍P-树的基本运算,尤其针对AND运算,研究了算法实现的不同思路,并给出了按照深度优先方式执行AND运算的算法实现细节。
第四章分析了数据离散化的三种方法,提出基于P树推导遥感数据关联规则的P-ARM算法,并通过一个实例,讨论了遥感图像关联规则挖掘过程。并全面论述了六种可行的剪枝策略。最后给出实验的结果以及性能分析,并与Apriori算法作了比较。
第五章是本文的结论部分,总结所做的工作,并指出了进一步研究方向。