论文部分内容阅读
磷酸化是真核生物细胞中一种重要的蛋白质翻译后修饰,几乎参与了所有的细胞内分子活动。磷酸化修饰过程由蛋白激酶催化完成,可以改变蛋白质的结构和增加蛋白质的功能多样化,甚至与疾病密切相关。对磷酸化过程的深入研究日益受到人们的关注,在一些癌症的治疗中,蛋白激酶是有效的药物靶点,其抑制剂则可被研制为抗肿瘤药物。 在过去的几十年里,出现了大量鉴定磷酸化修饰的实验方法和计算方法,然而随着已知磷酸化修饰位点数目的指数增长,其相应的激酶信息愈显匮乏,严重影响了进一步的深入研究。鉴定磷酸化修饰位点相应的催化激酶,进而推断其与疾病之间的关系,能够加深对多种疾病的分子机制的理解,有助于发现潜在的药物靶点。针对上述问题,本文利用机器学习算法为磷酸化修饰位点预测相应的蛋白激酶,并进一步预测磷酸化修饰位点相关的疾病信息。本文主要完成了以下几个方面的工作: 首先,充分调研国内外磷酸化预测研究的现状,了解磷酸化相关数据库数据情况。根据调研结果,从磷酸化数据库Phospho.ELM和PhosphoSitePlus中,提取和构建人类磷酸化修饰位点和激酶关系预测的标准训练数据集和独立测试集,并从PhosphoSitePlus、OMIM、MeSH和KinBase等数据库中提取数据,构建预测人类磷酸化修饰位点疾病相关性数据集。 其次,为解决现有磷酸化激酶信息预测研究中使用局部序列信息建模,无法充分利用磷酸化相关信息的问题,提取了磷酸化修饰位点附近的结构信息和所在蛋白质的功能信息,用于激酶信息预测。利用预测工具提取了包括二级结构、溶剂可及性和无序化信息在内的结构信息,并从STRING数据库中提取了蛋白-蛋白间相互作用信息。为处理多源特征融合和维数过高的问题,设计了两步特征选择方法来检测有用特征,并结合支持向量机提高预测性能。通过对结果的系统分析表明,所设计和实现的算法能够准确预测出磷酸化修饰位点相应的蛋白激酶信息。此外,采用了基于网络的学习算法预测磷酸化修饰位点与蛋白激酶间的关系。使用高斯核函数将磷酸化修饰位点-激酶互作谱转换为网络拓扑结构相似性,在融合网络拓扑结构信息和序列相似性后,使用拉普拉斯最小二乘法实现激酶信息的预测。 最后,对磷酸化修饰位点相关的疾病信息进行了预测。综合考虑蛋白激酶和人类疾病之间的关系,以及激酶对磷酸化过程的发生的决定性作用,构建出包含修饰位点、激酶和疾病的多层异质性复杂网络模型,并提出基于该异质性网络模型的随机游走算法。通过融合位点间网络、疾病间网络、激酶间网络、位点-疾病网络、激酶-位点网络和激酶-疾病网络,实现了磷酸化修饰位点和疾病间的关系预测。此外,还提出了一种基于支持向量机的复合特征选择算法,用于预测磷酸化修饰位点和疾病之间的关系。并在分析局部序列特征的基础上,利用所选特征预测磷酸化修饰位点相关的疾病信息。