论文部分内容阅读
大多数的实际网络都表现出模块化的结构,找到和分析这些模块有助于我们更好地理解网络的全局行为和拓扑结构。生物分子网络也呈现出这样的特点。蛋白质相互作用(protein-protein interaction,PPI)网络中的模块,通常与生物系统中的功能单元相对应。如何在蛋白质相互作用网络中预测蛋白质复合物和揭示蛋白质功能模块,已经成为系统生物学中一个重要且基本的研究课题。大量高通量基因组数据的出现,使得通过计算的方法来预测蛋白质复合物以及探测功能模块成为可能。本文的主要工作是应用运筹学方法在蛋白质相互作用网上识别蛋白质复合物,计算蛋白质功能模块以及分析其相关的生物意义。
蛋白质复合物作为一种特殊的分子机制,表示一组蛋白质一同协作完成某种特定的生物功能,生化过程。自然地,这些蛋白质之间的相互作用应该相对比较多,联系比较紧密,且功能也应该比较一致。考虑到蛋白质相互作用数据的不完整性和假阳性,我们将蛋白质功能注释数掘整合到蛋白质相互作用网络中来预测蛋白质复合物。首先,我们通过用图扩散核和线性核整合蛋白质相互作用网络和蛋白质功能注释数据来构造蛋白质—蛋白质关系网(protein-proteinrelationship network,PPRN)。我们期望这种整合能够提高预测复合物的精确度。将一种基于蛋白质相互作用网络的复合物预测方法-MCODE(MolecularComplexes Detection)方法应用到蛋白质-蛋白质关系网,通过计算方法预测蛋白质复合物。我们以酵母(Yeast,Sacchromyces cerevisiae)蛋白质的相关数据为例,通过与已有方法的比较以及与生物实验确定的复合物的匹配表明,由核方法整合功能信息数据后构造的关系网包含了更多的有用信息,复合物预测的效果得到极大的提高。
大量生物分子网络的出现,为我们系统地分析生物分子网络的拓扑结构,组织形式和深入理解细胞的化学过程提供了可能。大量证据表明模块结构是彼此相互作用的蛋白质的基本组织形式,这些模块是一些蛋白质的集合,代表着基本的生物功能单元。我们引进改进的CPM(clique percolation method)方法—一种基于图论的模块探测方法一在蛋白质相互作用网中预测互相重叠的模块。这些模块其内部连接紧密而与外部连接稀疏。我们用改进的CPM方法分析酵母蛋白质相互作用网络。大多数预测到的模块都对应一个或多个功能类,并且这些功能模块大部分与蛋白质复合物相匹配。并且,CPM方法在蛋白质相互作用网中可以找到彼此重叠的模块,可以用来预测生物通路(pathway)。数值结果的分析表明,一些相互重叠的模块是与已知的通路相对应的。此外,我们还发现一种特殊结构的模块,它们可能预示着某种特殊的组织形式。很自然地,这种分析方法也可以应用到其他物种的蛋白质相互作用网或一般的生物分子网络上。
蛋白质相互作用网络是很稀疏的,一般的网络探测方法在PPI网络中只能识别较少部分的模块。当将蛋白质相互作用网络进行线图变换后,得到的网络要比原来的网络稠密,且不改变网络中节点度的分布规律。虽然CPM方法在PPI网络中能够探测到彼此重叠的模块,但其限制太强,使得大部分蛋白质没有被包含在模块中。很明显的是,它探测不到轮辐型(spoke-like)结构。注意到图论中的线图变换技术能够很好的利用网络连接的高阶信息。结合两者的特点,我们提出一种将线图变换(line graph transformation,LGT)与CPM方法相结合的模块探测方法,LGT-CPM方法,在大规模稀疏的蛋白质相互作用网中寻找有意义的生物模块。这种方法不仅克服了CPM方法的不足,同时又保持了CPM方法的优点,即得到的模块之间是彼此交叠的。与其他方法相比,LGT-CPM方法能够分别在酵母蛋白质相互作用网络,果蝇蛋白质相互作用网和线虫蛋白质相互作用网探测到更多的模块,覆盖大部分的蛋白质,这非常利于进一步的分析。我们分析了LGT-CPM方法在酵母蛋白质相互作用网中的预测结果,表明大多数的模块都具有显著的生物意义。它们与实验得到的复合物有很高的匹配率,且具有很强的定位一致性和功能一致性。我们还考察了由计算得到的交叠模块构造的模块网络,该网络也表现出无尺度特性,这体现了蛋白质相互作用网络的层次结构特性和白相似性。