一种基于Waeibull分布的聚类方法在基因表达数据聚类分析中的应用

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:jamesshen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种广泛使用的基因表达数据分析技术。目前,大部分聚类方法基于距离分类基因,而很少有聚类方法根据基因表达水平的分布的相似性来分类基因。而且,随着生物学注释资源的积累,越来越多的基因已经被注释到不同的生物学功能类别中。因此,根据基因表达数据聚类结果的生物学功能一致性来评价聚类方法的性能是一个值得关注的聚类评价方法。   本研究中,我们提出了一种稳健的基于Weibull分布的聚类方法用于聚类基因表达数据(weibull Distribution based Clustering Method,WDCM)。在该方法中,我们将基因的表达水平当作服从特定的Weibull分布的随机变量。我们考虑到具有相似表达谱的基因有相似的分布参数,这样聚类基因可以转化为聚类基因对应的weibull分布参数。我们利用WDCM聚类了三套分别来自于肺癌、B细胞滤泡性淋巴瘤和膀胱癌研究的基因表达数据,获得了很好的聚类效果。我们进一步使用Gene Ontology(GO)对基因的分类结果进行功能注释,利用功能注释信息来验证该方法的聚类性能,同时与K-means和SOM聚类结果的功能注释信息进行比较。对比结果显示WDCM的聚类结果具有更加一致的生物学功能注释。我们也利用外部测度Adjusted Rand Index来评价该方法的聚类性能。对比结果也显示WDCM优于其它两种聚类算法。该方法除了适合聚类完全的基因表达谱外,也可以直接应用到不完全的基因表达数据的聚类分析中,且不需要填补缺失数据。我们也评价了它在聚类不完全数据时的稳健性问题。我们应用WDCM和基于填补的k-means到两套不完全的急性淋巴白血病的基因表达谱,并且用聚类评价指标Silhouette来比较这两种方法的聚类效果。结果显示,WDCM的Silhouette值优于k-means的。同时,WDCM也是一种稳健的聚类方法,能够应用于包含少量缺失值的基因表达数据的聚类分析。
其他文献
现场可编程门阵列(FPGA)是八十年代中期出现的新型可编程逻辑器件,通过编程,可以把一个通用的可编程逻辑器件配置成为用户需要的硬件数字电路,从而大大加快电路产品的研发周期,
在卫星广播、移动通信系统以及光通信系统中,微波滤波器和耦合器扮演着十分重要的角色。随着单片微波集成电路的宽带化发展,特别是片上系统的研发和应用,滤波器和耦合器也相
LTE协议的出现以及移动终端对于多模制式的需求,对硬件的计算能力、灵活性和功耗提出了较高的要求,粗粒度可重构架构在处理数据密集型算法时效果显著,同时具有较高的灵活性,能够
机器人发展经历几十年,从早期实现机械控制到现在已具有简单识别能力的智能机器人,但机器人的视觉与人的视觉依然相差很远,大多数带摄像系统的机器人只能识别颜色。虽然目前图像
本文对基于混沌随机数发生器的AES一次一密系统及其FPGA实现进行了研究。文章提出了一种新的AES实现方法和电路实现方案;提出了一个量化AES硬件实现方案安全性能的公式,并基于
我国西北地区水资源短缺,近年来河川径流又在大幅减少。经有关研究发现,气候变化和土地利用类型变化都不足以引起如此强烈的径流减少,所以我们推测可能是土地利用强度和植被结构
复杂目标及环境的电磁散射特性是雷达与通信领域重要的基础性问题。本文对两个关键性的问题进行了深入研究:复杂目标的电磁散射特性及大尺度复杂环境下的电磁波传播特性。主
目的:观察肌肽对糖尿病心肌病心肌纤维化的保护作用,以及探讨肌肽对糖尿病心肌病心肌纤维化保护作用的机制。   方法:动物实验:雄性Sprague Dawley(SD)大鼠随机分成四组,糖尿病
作为一种新型绿色照明光源,金卤灯越来越受到政府和企业的重视,但是它的负阻特性导致其必须与镇流器配套工作。传统的电感式镇流器不仅体积大,而且会产生噪声并使灯发生频闪效应
随着世界性能源危机和环境污染问题的日益严重,LED以其节能、环保、高可靠性等特点得到越来越多的关注,正逐步代替传统照明设备成为第四代照明光源。调光功能的加入使其在节能