论文部分内容阅读
长久以来传统的生物学假说“序列→结构→功能”在蛋白质组学中占据着统治地位,即氨基酸残基的一级序列决定了其蛋白质分子在空间中的三维结构,同时其蛋白质分子在空间的确定的三维结构也成为了蛋白质实行生物学功能的必要条件。目前上述生物学假说已经被人们修正,因为越来越多的研究表明许多蛋白质还拥有非确定的三维结构,而且这些蛋白质仍然参与关键的生物进程,包括细胞周期,基因调控,复合物的组装以及信号传导。事实上,超过33%的真核生物蛋白质包含缺乏结构的区域,这种蛋白质通常被称为“固有无序化蛋白质(IDPs)”。一些研究表明,与疾病相关的蛋白质与显著无序化的蛋白质之间存在着强烈的相关性,尤其对于某些复杂疾病如癌症、神经性疾病、心血管疾病以及糖尿病,都被证实与固有无序化蛋白质相关。随着蛋白质组学的不断发展和完善,基于固有无序化蛋白质的非折叠蛋白质组学做为蛋白质组学的一部分而开始受到重视,并逐渐成为研究的热点。本文试图从固有无序化蛋白质区域的预测、完全固有无序化蛋白质的功能标注以及固有无序化蛋白质在蛋白质相互作用网络和遗传等方面的潜在作用和关联关系等方面进行深入的研究。本文的主要内容如下:(1)使用基于潜在变量的贝叶斯决策树模型来预测固有无序化蛋白质区域。针对现有测定固有无序化蛋白质的生物化学实验存在的误差,引入实验观测值和实际真实值,将真实值做为潜在变量。同时,提出一种新的基于潜在变量的贝叶斯决策树分类器模型,并通过Metropolis-Hastings实现的马尔科夫链-蒙特卡洛方法来推断分类器模型。然后在模拟数据集合的基础上,验证本文方法是否能够有效地解决训练集合中的假阳性和假阴性。最后在实验数据集合上对固有无序化蛋白质区域预测也达到了较好的性能。(2)针对完全固有无序化蛋白质进行功能标注。针对完全固有无序化蛋白质功能标注不同于有序化蛋白质的功能标注的情况,提出了一种面向完全固有无序化蛋白质功能标注的方法。首先,在蛋白质数据库上构建了基于预测的完全固有无序化蛋白质的功能标注集合。同时,设计了基于不同距离的氨基酸残基特征,并使用潜在语义分析优化特征空间来训练基于支持向量机的分类器。最后在固有无序化蛋白质区域功能标注数据库Disprot上验证了方法的可靠性。(3)研究固有无序化蛋白质在人类蛋白质相互作用网络中的作用。构建了高可信的人类蛋白质相互作用网络,并对固有无序化蛋白质在网络中的作用进行了分析。首先,分别对基于人类和其他物种的低通量和高通量蛋白质相互作用实验数据以及通过预测方法得到的蛋白质相互作用数据进行统计建模。然后,利用层次贝叶斯模型整合各种来源的蛋白质相互作用数据来推断人类蛋白质相互作用组,同时使用蒙特卡洛期望最大化算法来估计层次贝叶斯模型的参数,并最终构建了一个具有高置信度的人类蛋白质相互作用网络。最后分析了固有无序化在得到的高可信人类蛋白质相互网络中的作用。(4)基于固有无序化变化推断单核苷酸变异与疾病之间的关系。基于GAW17发布的千人基因组项目中的外显子单核苷酸变异,本文系统地分析了非同义单核苷酸变异的潜在的固有无序化倾向特征,尤其是由单核苷酸变异引起的固有无序化分数变化DS。同时,本文分析了DS的上下文相关性、 DS与最小等位基因频率之间的关系,以及具有显著DS变化的单核苷酸变异对蛋白质和疾病的影响。实验的结果表明由单核苷酸变异引起的蛋白质区域有序化或无序化倾向的显著变化,可能会导致蛋白质的失调,甚至加大疾病的风险。