论文部分内容阅读
聚类是一种广泛使用的基因表达数据分析技术。目前,大部分聚类方法基于距离分类基因,而很少有聚类方法根据基因表达水平的分布的相似性来分类基因。而且,随着生物学注释资源的积累,越来越多的基因已经被注释到不同的生物学功能类别中。因此,根据基因表达数据聚类结果的生物学功能一致性来评价聚类方法的性能是一个值得关注的聚类评价方法。
本研究中,我们提出了一种稳健的基于Weibull分布的聚类方法用于聚类基因表达数据(weibull Distribution based Clustering Method,WDCM)。在该方法中,我们将基因的表达水平当作服从特定的Weibull分布的随机变量。我们考虑到具有相似表达谱的基因有相似的分布参数,这样聚类基因可以转化为聚类基因对应的weibull分布参数。我们利用WDCM聚类了三套分别来自于肺癌、B细胞滤泡性淋巴瘤和膀胱癌研究的基因表达数据,获得了很好的聚类效果。我们进一步使用Gene Ontology(GO)对基因的分类结果进行功能注释,利用功能注释信息来验证该方法的聚类性能,同时与K-means和SOM聚类结果的功能注释信息进行比较。对比结果显示WDCM的聚类结果具有更加一致的生物学功能注释。我们也利用外部测度Adjusted Rand Index来评价该方法的聚类性能。对比结果也显示WDCM优于其它两种聚类算法。该方法除了适合聚类完全的基因表达谱外,也可以直接应用到不完全的基因表达数据的聚类分析中,且不需要填补缺失数据。我们也评价了它在聚类不完全数据时的稳健性问题。我们应用WDCM和基于填补的k-means到两套不完全的急性淋巴白血病的基因表达谱,并且用聚类评价指标Silhouette来比较这两种方法的聚类效果。结果显示,WDCM的Silhouette值优于k-means的。同时,WDCM也是一种稳健的聚类方法,能够应用于包含少量缺失值的基因表达数据的聚类分析。