论文部分内容阅读
主动学习(Active Learning,AL)是机器学习领域中的一种迭代学习范式,在每次迭代学习过程中,首先利用训练过的模型去预测待选示例,然后根据一定评判标准选择更有信息含义的示例进行标记,从而构成新的训练样本,用于提高预测模型的泛化性能。本篇学位论文的主要研究内容是将主动学习结合三种分类模型去处理遥感图像地物分类问题,实验数据包括极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,PolSAR)图像以及高光谱图像。PolSAR是目前先进的雷达成像系统,它通过发送相干多通道微波主动获取地物目标的散射特性的回波信号,能够对地物进行全天候全天时地观测。高光谱是一种先进的成像系统,具有较高的频谱分辨率,能够在多个连续谱段上获取地物信息,已被广泛应用于地物观测。本篇学位论文将主动学习与三种类型的分类器算法进行结合。这些基础的算法分别是超限学习机(Extreme Learning Machine,ELM),卷积神经网络(Convolutional Neural Networks,CNN)和梯度提升决策树(Gradient Boost Decision Tree,GBDT),主要工作如下:在ELM算法的基础上,提出了在线主动超限学习机(Online Active ELM,OA-ELM)算法,同时提高了泛化性能和训练效率。OA-ELM算法将主动超限学习机(AL-ELM)算法和在线序列超限学习机(Online Sequential ELM,OS-ELM)算法进行融合成为了一种更鲁棒的在线主动学习算法。此外,根据ELM的输出特性提出了不一致采样方法,它能够直接利用ELM对示例预测的实数值输出,通过计算预测输出中的最大值和第二大值的差值来描述该示例的不确定性程度。在手写体数据集和两幅PolSAR数据集上的实验结果验证了不一致采样方法的有效性,实验结果表明OA-ELM不仅分类效果好,而且运行速度快。在CNN算法的基础上,结合了样本权重方法和主动学习采样方法,提出了基于加权卷积神经网络的主动学习算法(Active Learning Weighed CNN,AL-WCNN),提高了模型的泛化能力。样本权重方法是指利用模型预测样本的类别概率,来计算训练样本的重要程度,从而修改损失函数中的样本权重,为了提高分类性能。在主动学习采样方法中,利用差额采样选择信息含义更大的样本用于训练,从而提高分类性能。实验证明,AL-WCNN算法在PolSAR和高光谱数据集上都有很好的分类效果。在GBDT的基础上,采用了差额采样的方法,提出了基于GBDT的主动学习算法(AL-GBDT)。此外,还提出了基于高斯滤波的类别修正(Gaussian Filter for Label Revising,GFLR)的后处理算法,最终级联构成为了半监督方式的主动学习系统,显著地提高了分类结果。在两幅PolSAR图像和一幅高光谱图像上进行了实验,验证了AL-GBDT通过主动学习选择了重要的样本用于训练,提高了GBDT模型的泛化性能,GFLR利用空间邻域信息将预测结果进行后处理校正,进一步提高了分类结果。本篇学位论文提出了OA-ELM,AL-WCNN和AL-GBDT三种主动学习算法,通过遥感图像地物分类结果验证了所提出算法的有效性。