论文部分内容阅读
随着光学技术、数据存储技术以及空间探测技术的不断进步,越来越先进的系统被应用于太阳观测,高分辨率的太阳图像数据越来越丰富。这些数据记录了各种太阳活动过程和太阳物理规律,迫切需要开发快速、有效的方法挖掘太阳图像中蕴含的有用知识。当前太阳物理学者主要利用手工分析或者计算机图像处理的半自动方法来发现知识。该方式效率较低、分析精度也受到研究人员主观因素的影响,因此本文提出一种基于概念体的太阳物理知识自动发现的方法,给出了该方法的基本算法框架,并且将这一框架应用于太阳宁静区磁场流场图像知识发现。 首先,分析了太阳物理知识和物理研究者对太阳图像的描述方式,以及当前基于手工方式,基于图像处理技术的半自动方式和基于物理模型的理论推测的知识提取模式。发现现有的知识描述都是基于概念体进行的,知识提取模式主要目的是得到新的概念或者研究已有概念体的一些特性。太阳图像上的研究只有基于概念体才具有物理意义,才能进行后续的物理知识发现。基于像素或基于像素集团来进行研究体现不出物理概念。因此本文提出了基于概念体的太阳图像知识发现,并给出了基于概念体的太阳图像知识发现的一般框架。该框架包含图像中概念体的提取,概念体的刻画和细分,概念体中隐含的知识提取三大部分。整个框架不仅融合了人工智能研究领域的认知心理学的思想和人类智能的一个公认的特点―信息粒化的思想,而且有效的为图像领域知识的引入提供了接口,能提高对信息的利用率。此外,还能从多个不同的高维空间中对各种概念体挖掘出多角度不易发现的规律。其次,研究了太阳图像中概念体的提取方法。概念体是太阳图像具有物理含义的信息表达的基本单元,是太阳物理知识自动发现的前提。通过领域知识可知,宁静区太阳米粒图像包含了米粒和暗径两种概念体,而磁场图像中包含了磁元这种概念体。所以对磁场和米粒图像去噪后进行自动分割即可得到概念体。对于米粒图像,本文采用二维维纳滤波对其进行去噪,并基于形态学方法提取每个米粒的中心区域作为标记;而磁场图像则是在偏振信号上去除一倍噪声的数据,并用在所有方向都是极值的局部极值像素作为标记。用带标记的分水岭方法对米粒和磁场图像进行分割,并对米粒和磁元的分割效果进行了评价和对比分析。分析表明带标记的分水岭算法能够有效抑制图像中的噪声,防止过分割和欠分割现象,能够比较精确的得到图像中的概念体,这为后续的物理知识发现打下了基础。 然后,研究了磁元和米粒等概念体的刻画和细分方法。为了研究概念体在特征空间的结构,提取了磁元的周长、面积、磁场特性等6个属性和米粒的周长、面积、亮度、速度等10个属性对概念体进行刻画。此时磁元和米粒可以表示成空间的一个点,采用领域知识和自动聚类算法,探索了这些概念体在特征空间中的结构。基于先验信息可以将米粒分成运动方向向上的米粒和向下的米粒,或者大米粒和小米粒。而利用X-means聚类算法,也可以将5个特征描述的米粒分成2类,6个特征描述的磁元分成2类,4个特征描述的磁元则分成4类。 最后,进行了基于概念体的宁静太阳图像数据挖掘。分析了概念体在单一属性描述下的均值、方差和概率分布特性。利用1-规则算法和决策树算法分别提取了米粒在5个属性描述的空间中分成2类的规则,表明了米粒能够分成大小米粒群。利用决策树算法提取了磁元在6个属性描述的空间里分成2类和4个属性描述的空间里分成4类的规则。得出的规则表明,通过亮度,可以分成亮磁元和暗磁元2类;而通过面积和磁通量可以分成面积大且磁通量大、面积大但磁通量小、面积中等和面积小4类不同的磁元。利用线性相关系数、信息熵和支持向量机等方法分析了米粒的直径等6个属性与米粒运动速度之间的相关程度。研究表明,与米粒运动方向较相关的属性分别为米粒的亮度、米粒的直径以及相邻暗径的速度,而磁场特性对速度的影响不大。上述研究例证了本文提出的方法的有效性。