论文部分内容阅读
                            
                            
                                近年来,随着对计算生物学的高速发展,开发出的微阵列技术可以测量细胞中成千上万的基因。在这些基因中我们可以提取出许多数据,针对这些庞大的数据,我们可以从中得到许多有用的结论,数据分析技术在其中起到了至关重要的作用。聚类分析是研究数据的一个非常重要的技术途径。进几十年越来越重视对聚类分析的研究,并开发出了许多高效的聚类算法。传统的聚类方法通过对数据的行或者列上进行聚类,得出聚类结果。但是有时候数据的聚类结果往往受行和列的双重影响。因此,后来提出从行和列两个方向上进行聚类,即提出双向聚类算法。其主要功能是将数据之间相似程度比较高的数据集分为一组,而不同组别中数据之间相似程度比较小。对于基因表达数据中,同过聚类技术所得到的分组,可能对某一病症或性状有共同的表达能力,从而有助于探索基因奥秘。现如今,聚类算法已经成为研究基因表达数据最为常用的方法之一,但是由于现在数据越来越多,形式也多种多样,以及算法自身的一些不足,对一些问题的处理结果并不十分理想,因此研究更优秀的聚类算法,就有着十分重要的意义。BIMAX算法是近几年提出的一种双向聚类算法,该算法被证明能在允许的时间内有效地找出全部所想要大小的双向聚类,提供了一个基础性算法。这种方法基于分而治之的思想,使用的数据模型是0-1矩阵,它通过对矩阵的列进行简单分组,而后移动行来简单对矩阵进行划分,并通过对重叠矩阵进行选择讨论,最终达到聚类的目的。然而该算法却存在着一些缺陷。本文主要利用BIMAX算法先对列划分的特点,利用K均值聚类方法、CC(ChengAndChurch Biclustering)算法中残差的思想,以及一种聚类决策标准:Gain值,从原矩阵入手进行预处理,使BIMAX算法处理已对列进行调整后的数据矩阵,这样在BIMAX算法开始划分列集合时就具有较高的聚合程度,使得算法能更快地找到双向聚类,从而提高BIMAX算法处理矩阵时的效率。实验结果表明,改进的BIMAX算法与原BIMAX算法对比,在处理同一矩阵的过程中,可以更快地输出全部要求大小的双向聚类,降低了计算时间。