论文部分内容阅读
无论是在真核还是原核细胞中,赖氨酸是蛋白序列中最常见的翻译后修饰位点。为了进一步探究赖氨酸修饰的分子机制,需要准确地识别出序列中赖氨酸修饰的位点和修饰的程度。到目前为止,识别赖氨酸修饰位点的实验方法有很多,但这些实验方法通常花费昂贵且耗时耗力。因此,基于蛋白质序列信息预测赖氨酸翻译后修饰位点的计算方法受到越来越多的青睐。在本文中,作者重点研究了两种赖氨酸翻译后修饰的类型(pupylation和琥珀酰化)。Pupylation在细菌中作为一种有利于细胞行使功能的翻译后修饰类型,通常调节原核细胞中的蛋白质功能。在pupylation过程中,原核生物类泛素化标记作用在功能上与泛素化相似,可以标记靶蛋白来促进蛋白酶体的降解。本文中,作者通过系统地分析开发了一个名为pbPUP的pupylation位点预测器。特别是作者采用了一套复杂的编码方案,即基于氨基酸对的组成的编码pbCKSAAP,用来表征pupylation位点周围序列片段的序列模式和进化信息,并应用支持向量机构建其预测模型。10折交叉检验结果显示,在pbPUP性能表现中AUC值为0.849,并且在独立测试集中的表现远远好于现有的其他预测器。网络服务器pbPUP和后台数据免费提供服务,网址为:http://protein.cau.edu.cn/pbPUP/。作为一种新发现的蛋白质翻译后修饰,赖氨酸的琥珀酰化在原核和真核生物中对于调节细胞过程中蛋白质功能同样起着重要的作用。本文中作者通过整合三种编码方法开发了一个名为SuccinSite的计算工具来对蛋白质琥珀酰化位点进行预测,三种编码分别为基于k空格氨基酸对组成的编码,二进制编码和基于氨基酸理化性质的编码。5折交叉检验结果显示,在SuccinSite性能表现中AUC值为0.802,同样在独立测试集中的预测表现也好于其他现有预测器。此外,作者从随机森林中训练出的模型中还提取到了位点周围的信息特征和比较重要的特征组合规律,从侧面解释了预测器的工作原理。最后,作者整理了一个数据库,其中包括4,411个经过试验验证的琥珀酰化蛋白质中的12,456个琥珀酰化位点。网络服务器,训练及测试数据集,源代码和数据库均可以免费供大家查看和使用,网址为:http://systbio.cau.edu.cn/SuccinSite/。综上所述,本文中作者所开发的预测器(pbPUP和SuccinSite)将对赖氨酸的pupylation和琥珀酰化位点的预测具有较大的帮助。