论文部分内容阅读
小蛋白(通常定义为长度小于等于100个氨基酸)在原核生物和真核生物中普遍存在,发挥着重要的生物学功能,如参与蛋白质合成、能量代谢、脂质转运和代谢、转录调节、应激反应、氧化还原等。尽管在原核生物和动物中对于小蛋白的系统研究已经开展,但对于植物小蛋白的系统分析仍然是个空白,这主要受限于完成全基因组测序的植物物种的数量较少。随着高通量测序技术的不断发展,越来越多的植物全基因组测序完成,为我们进行植物小蛋白系统研究奠定了基础。本课题共选取了13个基因组注释较好的植物物种,包括3个绿藻、1个苔藓植物、3个单子叶植物和6个双子叶植物,共获得37,003条小蛋白序列,以这13个植物物种中的小蛋白为数据源,对小蛋白的基本特性(长度分布、所占比例、氨基酸使用频率和外显子数量)、保守性、功能和演化特征进行了系统分析。对小蛋白的长度分布和所占比例情况分析发现,在长度为50个氨基酸处小蛋白数量明显增多,从50-100个氨基酸小蛋白数量缓慢上升;植物中小蛋白占总蛋白的平均比例为8.73%,低于原核生物中小蛋白所占比例(10.99%),但高于无脊椎动物(5%)和脊椎动物(2%)。对小蛋白氨基酸使用频率的分析结果显示,极性带正电荷的氨基酸在小蛋白中出现频率高于在总体蛋白质中的出现频率,极性带负电荷的氨基酸在小蛋白中的出现频率低于在总体蛋白质中的出现频率,甲硫氨酸、半胱氨酸、天冬氨酸和谷氨酸在小蛋白和总体蛋白中的使用频率差异显著,这些氨基酸使用频率上的不同揭示了小蛋白与较大蛋白在分子结构和功能上存在的差异性。对小蛋白外显子数量的统计分析发现,在所有13个物种中,90%以上的小蛋白不超过3个外显子,通过将拟南芥和水稻的全长cDNA分别比对到其各自的基因组上,我们分析了拟南芥和水稻中基因的可变剪切情况,发现拟南芥中约31.55%的基因具有不同的可变剪切形式,而编码小蛋白的基因中只有17.76%存在可变剪切,水稻中约22.01%的基因存在可变剪切,编码小蛋白的基因中仅有12.53%具有不同的可变剪切形式,我们推测小蛋白中的可变剪切事件远少于较大蛋白质。通过同源聚类,我们对13个物种中的小蛋白进行了保守性分析,结果显示物种特异的小蛋白约占64.20%,远远超过相对保守的小蛋白,且89.31%的物种特异的小蛋白没有发现任何的GO功能注释,而且这些小蛋白几乎都是假定蛋白,由于在蛋白质合成过程中有机体倾向于使成本最小化,所以我们推测生物体倾向于富集小蛋白来发挥物种特异的功能。另外我们对在13个物种中都保守的小蛋白和只在9个被子植物、6个双子叶植物、3个单子叶植物中保守的小蛋白进行了功能富集,并总结了每类保守小蛋白中前6个包含小蛋白数最多的功能集,发现这4组中的小蛋白都呈现出种属特异的功能,并且随着物种的不断演化,小蛋白也不断演化并出现了相应的物种特异性特征。接着我们分析了小蛋白的演化特征。首先对小蛋白的结构域模式进行了分析,发现80.93%的小蛋白只含有一个结构域,所以我们推测结构域在小蛋白中独立演化,但随着蛋白质长度的增加,结构域也不断演化为其他模式。另外对在所有物种中都保守的小核内核糖核蛋白和核糖体蛋白的系统发生树的分析发现,这两个小蛋白在几乎所有植物物种中都至少含有2个拷贝,而且同一物种的不同拷贝并不总是聚在一起,说明不同的拷贝在选择压力的作用下发生了不同程度的变异,所以我们推测不同拷贝之间的变异可能是植物小蛋白演化的主要动力。另外,小蛋白还可能在绿藻和真菌或原生生物中经历了基因的水平转移,植物中的小蛋白来源于绿藻,并在绿藻和真菌或原生生物中经历了基因的水平转移后,被植物保留了下来。本文通过对植物小蛋白的系统分析,进一步证实小蛋白功能重要性,并揭示了小蛋白的演化特征,为今后深入进行植物小蛋白的功能研究和植物基因组功能注释提供了线索。