论文部分内容阅读
蛋白质是生物体的基本构件。深刻阐明蛋白质的结构与功能,是探索生命奥秘的核心任务。有研究发现蛋白质对于生物体存活的重要性存在差别,由此可以将蛋白质划分为关键蛋白质和非关键蛋白质。随着测定蛋白质间相互关系的高通量生物实验技术快速发展,使得可用的相互作用数据海量涌现。据此构建蛋白质相互作用网络并在其上开展相关的关键蛋白质预测等研究以促进生物学医学等基础学科深入发展成为当前相关领域的研究热点。另一方面,结构决定功能是分子生物学上的一条经验法则,对关键蛋白质的研究也有助于更进一步加深对蛋白质在生物体内功能的理解。为此,在蛋白质相互作用网络上对关键蛋白质的预测算法开展研究,主要从网络节点拓扑中心性,蛋白质多信息融合机制以及算法自适应机制等多个角度开展关键蛋白质预测算法的相关研究。同时结合对关键蛋白质预测算法的研究成果,对其在蛋白质复合物预测中的应用也进行了研究。全文主要工作概括如下:(1)在蛋白质相互作用网络上基于网络节点拓扑中心性预测算法是一类重要的预测方法,现有中心性预测算法的设计思路多集中在蛋白质相互作用数据集上挖掘关键蛋白质的特征,忽略了关键蛋白质与真实蛋白质复合物在结构上的关联,这或许是现有算法预测性能不佳的原因之一。鉴于以上考虑,系统分析了真实蛋白质复合物中节点的拓扑特征与复合物包含关键蛋白质数目的关联,提出了一种基于网络节点局部互作密度的关键蛋白质预测新算法LID。该算法在相关数据集上与现有经典网络拓扑中心性预测算法相比较,具有更好的预测结果。(2)从已有研究成果来看,利用蛋白质网络拓扑单一特征设计预测算法,从而获得较好的关键蛋白质预测性能仍旧十分困难。因此基于蛋白质多信息融合预测关键蛋白质是相关研究可选的途径。目前多信息融合预测关键蛋白质算法的融合机制通常需要人工手动设定经验参数值,这需要大量的实验来获取,且参数值一旦设定一般不能轻易改变,从而增加了相关预测算法对特定相互作用数据集的依赖性。为此提出了一种多信息融合的新机制,并在此基础上融合网络节点局部互作密度LID与真实蛋白质复合物节点内度两类蛋白质生物信息,构建了一种多信息融合关键蛋白质预测新算法LIDC。该算法的融合机制不需要人工经验参数,降低了算法对特定数据集的依赖性。与现有经典多信息融合预测算法以及提出的新算法LID进行实验对比中,在多个评估指标下,取得了较好的预测结果,从而为蛋白质多信息融合机制研究提供了途径。(3)现有网络节点拓扑中心性关键蛋白质预测算法缺乏自我调节的部分。设计合理的调节机制,可以使得原有的网络拓扑中心性预测算法拥有合理的自适应性,以应对蕴含不同网络结构的蛋白质相互作用数据集上的预测任务。由此通过研究发现存在网络节点拓扑特征,即是局部互作密度非均衡性指标LLDH,与蛋白质网络结构间差异存在某种关联,使之可以用来引导相关预测算法的自行调整。在构建蛋白质相互作用数据集上的先验网络集合基础上,提出了以基于网络节点局部互作密度预测算法LID的拓展形式,网络节点广义局部互作密度为核心的关键蛋白质预测新算法G-LID,该算法不依赖人工经验参数,具有恰当的自适应功能。同时该算法虽然使用到了先验知识,但相关信息仍旧来自蛋白质相互作用数据集,并未增加蛋白质生物信息种类和算法的数据依赖性。在与现有经典网络节点拓扑中心性预测算法以及提出的新算法LID在以往预测性能下降较快的数据集上进行对比实验中,该算法取得了较好的预测性能提升效果,为基于网络节点拓扑中心性关键蛋白质预测算法相关研究提供网络结构自适应机制。(4)生物体内的蛋白质要执行相应生物功能的一般形式是多个蛋白质协同合作,共同完成。而蛋白质复合物正是蛋白质间这种协作的客观体现。因此在蛋白质相互作用网络中识别蛋白质复合物研究对于理解生物体复杂工作机制具有重要作用。已发表的蛋白质复合物预测算法大多基于聚类思想来实现在网络中蛋白质复合物的发现,其聚类机制多侧重于数学意义上的节点划分,且时间复杂度偏高。另一方面,现有生物实验已经发现真实蛋白质复合物内部还存在更微观的结构,其内部的蛋白质还可以划分为核心成员和附属成员等。受此启发,考虑在蛋白质相互作用网络中对关键蛋白质预测算法研究成果的推广应用,提出了基于网络节点局部互作密度的蛋白质复合物预测新算法CBLID。该算法首先利用网络节点的局部互作密度LID分值生成聚类种子集合;随后将种子的互作邻接点分配到对应聚类中完成聚类;最后清除重复的聚类,得到当前网络的蛋白质复合物候选集。算法CBLID相比较于现有经典蛋白质复合物预测算法具有更小的时间复杂度,且在选取多个蛋白质相互作用网络上,与已有算法的对比实验中,在多个评估指标下,该算法取得了较好的预测结果,从而为蛋白质复合物预测研究提供了思路。