论文部分内容阅读
高光谱遥感是20世纪80年代出现的新型对地探测综合技术,具有较高的光谱分辨率和不间断的光谱覆盖,因而可以提供更丰富的地面信息,增强遥感对地探测能力。高光谱遥感利用航空或航天成像光谱仪和非成像光谱仪可以非常容易地获得大量高光谱遥感数据,为人类对地探测提供了源源不断的海量信息,在实验、研究以及信息的商业化方面发挥着重要作用,使遥感技术从宏观探测和定性分析时代进入微观识别和定量或半定量研究时代。
然而,由于高光谱波段数众多、信息冗余度高等特点,基本的多光谱数据处理技术与分析方法不能充分发掘和抽取隐含在海量数据背后的有用信息和知识,已不能满足日益提高的高光谱应用要求,迫切需要高效率、自动化、智能化的高光谱数据处理技术。
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘已是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘经过几十年的发展,已经形成了以关联分析、分类分析、聚类分析、回归分析等为主要形式的应用技术,各种数据挖掘方法和工具不断涌现和得到改善,如以信息论为基础的决策树分类、以概率论为基础的贝叶斯分类、以神经科学为基础的神经网络方法、以生物进化理论为基础的演化计算等。数据挖掘是数据库技术、人工智能、机器学习和统计学等学科相结合的产物,已经在科研、工业、商业、经济、金融、管理等领域得到研究和应用。大量数据挖掘技术、算法、工具的研究和发展,为高光谱遥感数据的处理提供了理论基础和技术支持。数据挖掘作为从海量数据集中提取模式和知识的重要手段,为高光谱应用延拓和深入提供了有效的途径。高光谱遥感技术的应用离不开高光谱数据挖掘。
研究和运用适合于高光谱数据的数据挖掘技术和方法,建立物谱关联模型、光谱分类等模型,实现高光谱数据的高效处理分析,发现和提取隐含在高光谱海量数据中的有用知识和模式,对于地物混合成分丰度预测估计、岩石矿物物理化学成分与光谱特征参数之间的定量关系研究,进而从大量的高光谱遥感数据中提取岩石、蚀变矿物的光谱信息,都具有重要的研究意义和经济价值。
岩石矿物成分的丰度、蚀变强度可通过吸收峰的特征参数反映出来,与吸收峰的深度、吸收面积等有一些相关性。高光谱物谱建模就是对蚀变矿物含量与深度、面积等光谱吸收特征参数进行相关分析,建立两者之间的定量模型,从而可以根据光谱数据预测矿物成分的含量。传统的物谱建模技术主要是统计回归分析、散点图等,这些模型都具有一定的限制性,所建立模型的精度比较低。
高光谱分类的目标是根据测得的光谱数据,实现对地物类别的计算机自动识别。从模式识别中发展起来的分类技术在多光谱遥感图像中获得了广泛的应用,例如最小距离分类、最大似然分类、神经元网络分类等分类方法。然而,高光谱与多光谱有很大的不同,这些多光谱遥感分类方法不能直接应用于高光谱分类。论文研究了数据挖掘领域中几种分类和回归技术,并对部分算法进行了改进和实现;以开发设计的“中国铀矿床光谱数据管理与处理分析系统”为平台和载体,以实测的地物高光谱数据为对象,以光谱数据检验、光谱曲线光滑、光谱特征参数提取、统计分析与建模等基本光谱数据处理技术与分析方法为数据预处理手段,开展高光谱数据挖掘实验研究;利用改进的人工神经网络、基因表达式编程以及成熟的决策树、朴素贝叶斯、朴素贝叶斯树等算法,在高光谱物谱关联建模、高光谱分类等方面做了有效探索和尝试。
本文在第一章介绍了论文的选题及其研究意义、选题的国内外研究现状、以及主要的研究内容。接着在第二章中回顾了数据挖掘技术,重点介绍了人工神经网络、基因表达式编程、决策树C4.5以及朴素贝叶斯分类等回归和分类技术与算法。针对基因表达式编程中适应度计算的缺点,提出了一种新的表达式树的构造方法,以及相应的解码过程,通过实验对比证明了该方法的有效性。在此基础上,从初始群体生成、选择策略、遗传算子等方面对GEP作了改进,提出了一种新的算法GPEP。同时,借鉴并引入了多阶段演化的思想。第三章基于“中国铀矿床光谱数据管理与处理分析系统”,介绍了光谱数据处理与分析技术。这些基本的光谱数据处理与分析技术是进一步进行高光谱数据挖掘的基础,这些预处理结果将直接影响到数据挖掘的最终质量。第四章是本文的主要工作,利用改进的人工神经网络和基因表达式编程技术进行了高光谱物谱关联建模,对这两种回归建模技术进行了实验对比;采用决策树C4.5、朴素贝叶斯、朴素贝叶斯树等算法进行了带缺失属性值的高光谱分类研究,对三种分类算法的分类结果进行了比较和分析。在最后一章,总结了论文的主要工作和后续工作。