论文部分内容阅读
核蛋白与人类的许多基因疾病和生物遗传密切相关,蛋白质序列中发挥功能的区域有结构域(Domain)和模体(Motif),因此对结构域和模体的研究至关重要。通过对核蛋白的结构域和模体的研究可以帮助我们深入了解蛋白质的亚核定位机制。本文以核蛋白为研究对象,根据蛋白质序列数据库UniProtKB/Swiss-Prot构建6类亚核定位蛋白数据集NP1505,提取每类核蛋白含有的结构域和模体信息,发现H15、BUB1 N-terminal、Ku等结构域是染色体区域蛋白独有的结构域,S1 motif、PUM-HD、Brix结构域是核仁区域蛋白独有的结构域,SUN、MIR、IQ等结构域是核膜区域蛋白独有的结构域,以及6个区域中蛋白共有的结构域RRM,并通过查阅大量文献和蛋白质数据库,找到这些结构域具有的功能和在PDB库中的二级结构和三级结构视图,另外利用Weblogo在线服务器生成模体的信息含量图,对核蛋白的特征模体进行分析。这些特征信息可用于进一步预测蛋白质的亚核定位,为研究核蛋白的作用机制提供帮助。基于以上对核蛋白结构域和模体的研究,我们重新建立了序列相似性为30%的9类核蛋白的新数据集NP1118,将核蛋白的结构域特征用于预测蛋白质的亚核定位,还提取了氨基酸单肽组分(AAC)和二肽组分(DC)信息、蛋白质骨架(PB)信息、GO注释信息、氨基酸粘性(AAS)信息为特征参数,用支持向量机算法(Support Vector Machine,SVM)对9类亚核区域的核蛋白进行分类预测。其中,单特征GO注释信息的预测效果最佳,Jackknife检验的总预测精度是66.91%,最后将各种单特征进行融合,融合特征比单特征的预测结果明显提高,Jackknife检验的总预测精度最高达到70.39%。