论文部分内容阅读
伴随着大数据时代的到来,数据量正呈现指数级增长,与此同时所带来的在数据分析和挖掘等方面的需求也不断激增,而聚类分析作为数据挖掘的重要工具,其研究热度一直很高,但是每种聚类算法都存在一定缺陷,需要不断进行优化,以提高算法的聚类准确度。本文选取了直觉模糊C均值聚类(IFCM)和谱聚类(SC)这两种当前应用较为广泛的聚类方法作为主要研究内容,并选取了多目标免疫算法(MOIA)来对这两种聚类算法进行优化,主要研究工作如下:(1)提出了一种基于网格的多目标免疫算法(GMOIA)。首先,为了改善非支配解分布的均匀性,该算法使用了一种基于网格的活性抗体选择策略。其次,设计了一种混合差分进化策略和自适应突变算子,以改善种群多样性,有利于算法跳出局部最优。最后,在五个双目标问题以及三个三目标问题上的实验结果均表明,与其它四种多目标遗传算法相比,基于网格的多目标免疫算法得到非支配解集更加接近于真正的Pareto最优前沿,并且分布比较均匀。(2)提出了一种基于GMOIA的核直觉模糊C均值聚类算法(KIFCM-GMOIA)。首先,对于线性不可分的数据,使用欧氏距离的直觉模糊C均值聚类算法一般难以获得满意的结果,因此该算法引入了高斯核函数来计算数据点之间的相似度。其次,除了核直觉模糊C均值聚类的目标函数外,该算法还引入了类间分离度作为第二个目标函数,并使用基于网格的多目标免疫算法来寻找最优聚类中心,有效改善了传统模糊聚类算法对初始聚类中心敏感的问题。最后,基于GMOIA的核直觉模糊C均值聚类算法与三种著名的模糊聚类算法在12个UCI数据集上进行比较,以证明该算法的有效性。(3)提出了一种基于GMOIA的自动谱聚类算法(ASC-GMOIA)。首先针对传统谱聚类算法需要预先指定聚类数的缺点,使用了一种包含激活阈值和聚类中心两部分的抗体表示方法。其次,选取类内离散度和类间整体方差两个目标函数,并使用改进的多目标免疫算法来确定簇数和寻找最优聚类中心。最后,基于GMOIA的自动谱聚类算法在四个常见人工数据集和四个真实UCI数据集上与其它自动聚类算法和传统谱聚类算法进行了对比,实验结果表明,基于GMOIA的自动谱聚类算法能够在自动确定簇数的同时提高算法的聚类准确性。(4)将基于GMOIA的核直觉模糊C均值聚类算法应用于脑部MR图像分割,首先使用自适应加权方法得到新的加权图像,然后使用KIFCM-GMOIA算法来指导图像分割。实验中用到的脑部MR图像包括2张人工图像和6张真实图像,最终实验结果表明,基于GMOIA的核直觉模糊C均值聚类算法与传统图像分割算法相比具有明显优势。