论文部分内容阅读
识别蛋白质相互作用网络中的模块结构,是理解细胞功能的组织结构以及动态性的第一步。因而,如何在蛋白质相互作用网络中寻找模块结构便成为一项十分重要而且极具挑战的任务。目前,出现了许多基于蛋白质相互作用网络的拓扑结构识别模块的方法,但是这类方法主要集中于识别网络中的稠密区域作为蛋白质模块,而忽略了蛋白质自身所具有的生物功能。因此,在本文中,我们提出了一种既考虑蛋白质相互作用网络的拓扑结构,又考虑蛋白质自身生物功能的基于基因本体论的模块识别算法(Core-Attachment based on Gene Ontology,CoAchGO)。CoAchGO算法主要包括两个步骤:首先,在蛋白质相互作用网络中找出蛋白质模块的核心(称之为蛋白质核)。在找蛋白质核的过程中,利用基因本体论从蛋白质分子功能层面对蛋白质核进行校正与过滤。这样既弥补了单一依据拓扑性的不足,又能有效地处理目前蛋白质相互作用网络中普遍存在假阳性、假阴性数据的问题。接着,再利用基因本体论对蛋白质核进行扩展,将那些倾向于辅助蛋白质核完成生物功能的附属蛋白质包含进来,形成最终的蛋白质模块。在酵母蛋白质网络上,利用标准蛋白质模块集、基因本体论和位置注解等对算法进行性能评估,并与几个具有代表性的算法进行比较。实验结果表明,得到的蛋白质模块在查全率、查准率,尤其在生物意义方面好于现有算法。