论文部分内容阅读
近年来,随着生物技术的发展,出现了很多生物网络数据,生物网络数据规模有了显著地增加,包括蛋白质作用网络,新陈代谢网络,基因调控网络等。如何从这些数据中挖掘出与功能相关的结构是目前的一个研究热点。模体是指在某个网络的多个不同部分出现的某一相互连接的子结构,其表达程度明显高于在随机网络中的表达。如何从生物网络中挖掘出模体是研究生物体进化和生物网络结构的关键一步。目前的模体识别方法主要是针对确定图,但是研究得到的生物网络数据通常带有不可避免的实验误差或噪声数据,同时,生物进化过程本身也是一种动态变化的过程。因此生物概率网络的研究更具生物意义。 在目前已有研究中,主要采用可能世界模型,即将每个概率予图映射为2n个可能的图实例,其中n为子图边数。随着模体规模的增大,枚举的图规模将急剧增加,算法的复杂度呈指数级增长。基于电路模拟法判别概率子图同构算法,避免了使用传统算法中的可能世界模型,将子图同构的拓扑比对转化成节点电压序列的比较。但是因需要对每个节点进行全激励,效率较低。生物概率网络模体识别分为三部分,概率子图搜索、概率频繁模式识别和模体统计意义计算。但随着模体节点数的增加,对应的子图数量也急剧增加,从而使模体识别在时间和空间消耗上都超出了单机的处理能力。 针对这些问题,本文的主要工作如下: 在电路模拟法的概率子图同构算法(Probability Subgraph Isomorphic based on CircuitSimulation,PSI-CS)基础上,基于在两个概率同构子图对应的伴随电路中,对应节点在相同全激励下会产生对应相似的节点电压序列的思想,提出单节点全激励的概率子图同构算法(Probability Subgraph Isomorphic based on Single Node with Complete Excitation, PSI-SNCE),该算法通过添加一个参考节点并施加全激励,不需要对子图中的每个节点进行全激励计算节点电压序列,从而使求解方程组的次数减少约n倍(n为子图的顶点数),效率得到大大提高。 在非树形子图枚举算法(Enumerate Non-tree Subgraph,ESN)和基于划分的非树形子图搜索算法(Partition-based Non-tree Subgraph Search,PNSS)基础上,提出一种适合于并行化环境的非树形子图搜索算法:基于序号的非树形子图搜索算法(Order-based Non-treeSubgraph Search,ONSS),能够在保证子图搜索的唯一性、不遗漏性及不重复性的基础上,将任务均衡分布到并行计算节点上,效率得到显著提高。 聚类过程是概率频繁模式识别算法中计算复杂度最高的部分,为此提出聚类过程的并行化方案,在迭代运算较优的Spark集群环境中并行化实现。在概率频繁模式识别的聚类过程中,采用PSI-SNCE算法计算两概率子图是否同构,若同构,则聚成一类,若不同构,则保持不变。最后将满足要求的少量概率频繁模式进行模体统计意义计算,得出P-Value值,即可得出概率模体。 在生物网络E.coli、S.cere1和S.cere2数据集上进行实验,结果表明,本文提出的PSI-SNCE算法、ONSS算法及概率频繁模式识别算法的并行化方案在保证正确性的前提下,能够有效地降低概率模体识别的时间,并具有较好的可扩展性。