论文部分内容阅读
DNA微阵列(基因芯片)技术的出现,使人们能够获得高通量的基因表达数据,这将成为今后重要的生物医学研究工具。但是,微阵列数据具有小样本、高维度的特点,这给样本分类等数据分析带来了困难,如何合理地进行降维是十分重要和有意义的。
模糊c均值算法和EM算法都是基于“软”划分的聚类算法。本文分析了它们各自的特点,在实验的基础上进行了比较。并深入研究了模糊c均值算法使用随机初始值和凝聚层次聚类初始值对算法有效性的影响情况。
基于模糊c均值算法,本文提出了一个新的基因表达数据降维方法:FCM加权降维法。在真实的高维数据上进行降维,运用经验贝叶斯和支持向量机进行了分类,取得了良好的效果。