基于P-树的关联规则在遥感图像数据挖掘中的应用

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:elvisivle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据和数据库的规模急骤增长,如何把数据变换成有用的知识是科学家亟需解决的问题,数据挖掘技术正是在这样的背景下应运而生的。数据挖掘被定义为从大量的数据中提取隐含的,事先未知的,潜在有用的信息和知识的过程。 近年来,从卫星、太空传感器、射电望远镜和其他传感平台每天都在收集大量的遥感图像数据,这些数据来不及处理就变成了档案被束之高阁。从这些海量的遥感数据中提取有趣的模式,对科技工作者来说极具挑战性。遥感图像挖掘的应用领域包括:精细农业、社区规划、资源发现、自然灾害预测、地理信息系统和环境评估等。 关联规则挖掘最早由R.Agrawal、T.Imielinski和A.Swami于1993年提出<(3)>。给定一个用户定义的最小支持度和最小置信度阈值,关联规则挖掘的问题就是找到所有满足最小支持度和最小置信度的关联规则。1994年,R.Agrawal和R.Srikant提出了Apriori算法<(4)>。随后,人们提出了大量有关关联规则的算法,如:AprioriTID算法,AprioriHybrid算法,FP-growth算法,DHP算法等<(5)>,它们大多是针对关系数据库和事务数据库提出的。目前对关联规则的研究也涉及到其他领域,如医疗诊断和遥感图像分析等。 将遥感数据与地面数据融合在一起,从中提取有用的关联规则,具有十分重大的实际意义<(6)>。但是,由于遥感图像数据量很大,而已有的关联规则挖掘算法扩展性很差,不能很好地适应遥感图像数据的挖掘任务,为此,我们研究了一种新的模型高效地实现遥感图像关联规则挖掘。本论文旨在结合遥感数据的特点,采用由美国北达科他州立大学WilliamPerrizo等提出来的一种新的数据结构<(7)>,即P-树数据结构来表示遥感图像数据,将用于关系数据库和事务数据库的挖掘算法进行适当修正,使之能适合遥感数据的挖掘。通过高效的P-树运算,简化了支持度的计算,避免了对整个数据库的扫描,改善了数据挖掘性能。 本实验主要步骤如下: (1)使用bSQ格式来组织图像数据,采用等长度划分(equi-length)对遥感图像数据进行离散化处理。 (2)使用P-树数据结构来表示bSQ文件或Peano序列,做好了数据准备工作。 (3)通过实现P-树的AND运算,迭代计算满足最小支持度的频繁集计数。 (4)使用有效的剪枝策略,实现了遥感图像关联规则挖掘的P-ARM算法。 本文第一章简单回顾了遥感图像关联规则挖掘国内外研究现状,总结了本论文的研究内容和结构安排。 第二章介绍了数据挖掘的步骤,给出了关联规则的定义,讨论了几种常见的关联规则算法,包括:Apriori算法、FP-增长算法和DHP算法。最后介绍了其他的关联规则挖掘技术,如:量化的关联规则挖掘,多层关联规则挖掘和空间关联规则挖掘等。 第三章介绍了空间数据的三种常见的组织形式,并研究了一种新的文件组织形式bSQ文件组织。然后重点论述了P树的基本概念,变形形式PM-树,并分析了遥感图像数据转换成Peano序列的算法细节,研究了两种P-树的生成和存贮算法。接着介绍P-树的基本运算,尤其针对AND运算,研究了算法实现的不同思路,并给出了按照深度优先方式执行AND运算的算法实现细节。 第四章分析了数据离散化的三种方法,提出基于P树推导遥感数据关联规则的P-ARM算法,并通过一个实例,讨论了遥感图像关联规则挖掘过程。并全面论述了六种可行的剪枝策略。最后给出实验的结果以及性能分析,并与Apriori算法作了比较。 第五章是本文的结论部分,总结所做的工作,并指出了进一步研究方向。
其他文献
本论文对号码技术在若干领域中的应用进行了研究,主要有如下三个领域:纸币号码识别、汽车牌照定位和水表读数识别。同时开发了相应的软件程序,实现了实际应用的功能。 纸
本文从传统的数据约简和关联规则挖掘的国内外的研究现状和常用算法入手,深入分析和研究了常用算法在空间数据方面存在的问题。在数据约简方面,针对HORAFA算法在空间数据方面存
市场经济的快速发展和竞争的不断加剧,使得正确及时预测和由此产生的可靠的决策,成为现代企业成功的关键要素,并对国民经济的发展起到了越来越大的作用。人们只有更准确地揭示出
本论文中主要讨论用户端的安全控制和主机用户的网络行为。讨论了在IP网络中对用户网络行为进行规范和对网络中的合法、非法数据包的鉴别。如果IP网中的每个用户都能规范自己
词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用.因此词义排歧方法的研究具有重要的理论和实践意义.本文主要研究在标注语料库支持下的基于有指导
随着现代教育技术的发展,对教学方式的多样化以及教学辅助技术都提出了更高的要求,多媒体教学课件作为计算机信息技术、网络技术在教育领域的一类应用,为教学形式、教学手段、教
随着WWW发展和地理信息系统技术在几乎所有领域的应用,WebGIS得到快速发展。无数的组织、机构拥有数量巨大的地理数据,然而这些数据却以不同格式存在。目前大多数的商用数据格
网格是继传统因特网、万维网之后的第三代互联网应用,它是集成的计算与资源环境,其核心是网格消除信息孤岛,实现资源共享(包括计算资源、存储资源、通信资源、软件资源、信息资
继瑞典于1989年建立世界上第一个国家顾客满意度指数测评体系之后,世界各发达国家也纷纷建立了具有自己特色的顾客满意度指数评价体系,作为衡量经济增长质量的客观经济指标。基
Internet的迅猛发展,造就了人类历史上最大规模的分布式海量信息资源库。搜索引擎应运而生,为人们利用网络资源提供了有效的工具,但其自身的不足之处也显露无遗。用户常常无法准