论文部分内容阅读
随着医学信息技术的迅猛发展,数据挖掘技术在疾病辅助诊断方面发挥了巨大的作用。模糊聚类作为数据挖掘技术中重要的聚类技术,主要用于识别度量数据内在结构的相似性,是医学信息领域的研究热点之一。模糊c均值聚类(Fuzzyc-means Clustering,FCM)算法作为模糊聚类中的经典算法,在医学信息研究中也得到了广泛的运用。由于医学数据信息特殊性和传统FCM聚类算法的局限性,使FCM在医学疾病辅助诊断上以处理医学图像为主。本论文针对医学信息数据的混合属性特点,在对传统的FCM聚类方法改进的基础上,运用改进的FCM算法用于辅助医生开展疾病诊断。本文的主要工作概述如下: (1)在fuzzy c-means聚类算法基础上,提出了一种面向数值属性和分类属性数据的混合模糊c均值聚类算法(Fuzzy c-means Clustering Algorithm for Mixed Data,MD-FCM)。在该方法中,分别使用均值和模糊质心代表数值属性和分类属性数据的初始化簇中心,并针对不同属性的数据分别运用不同的相异度测算方法来评估数据对象和簇中心之间的距离,实现对混合属性医学数据集的聚类,通过实验对MD-FCM聚类算法进行论证。 (2)在面向混合属性医学数据的fuzzy c-means聚类算法的基础上,提出了一种基于最小距离的簇中心初始化方法(Improved Centers Initialization of Clustersbased on Minimum Distance, MD-ICI)。 MD-ICI方法运用最小距离原则,结合相似性阈值思想,具有较高的收敛性。UCI(University of Californialrvine)机器学习库中的Heart Disease实验结果表明簇中心初始化方法MD-ICI比随机的簇中心初始化更有效。 (3)在面向混合属性医学数据的fuzzy c-means聚类算法的基础上,提出了一种加权模糊c均值聚类算法(Weighted Fuzzy c-means Clustering Algorithm for MixedData,MD-WFCM)。该算法在传统加权FCM算法的基础上,分别对数值属性和分类属性采用不同的权重计算方法,运用单目标优化问题计算数值属性的权重,利用分类属性距离作为分类属性权重方法来体现不同属性在聚类过程中的作用。 (4)在面向混合属性医学数据基础上,对簇中心进行初始化,并结合加权属性,提出了一种多层加权模糊聚类算法(Multiple Weighted Fuzzy c-meansClustering Algorithm for Mixed Data,MD-MWFCM)。采用FCM聚类算法框架算法得到第一阶段聚类簇中心,作为第二阶段初始聚类簇中心。在第二阶段运用针对数值属性和分类属性的混合属性加权c均值聚类算法(MD-WFCM)进行诊断。