论文部分内容阅读
蛋白质和核酸是构成生命体最为重要的两类生物大分子,蛋白质与DNA/RNA相互作用是许多细胞功能的核心,例如基因的调控与修复,蛋白翻译合成等。蛋白质与DNA/RNA的相互作用是分子生物学研究的中心问题之一。本论文利用蛋白-核酸复合物结构数据,使用统计方法分析蛋白质-核酸分子相互作用中的氨基酸和核酸的相对使用偏性,并重点用机器学习方法预测了蛋白与核酸相互作用关系。具体内容如下:
1.生物信息学中的机器学习方法
介绍了生物信息学研究中常用的机器学习方法。然后,我们利用支持向量机技术,提出使用碱基相关性作为序列特征,对干扰RNA的降解效率进行识别,我们取得的预测效果超过通常基于序列特征的打分算法。我们还利用支持向量机技术并结合基因组序列分析方法对细菌基因组水平转移基因进行了识别。我们的算法要好于Tsirigos等人最近提出的基于八联核苷酸频率的打分算法。另外,在对细菌基因组的水平转移基因进行识别时,要将目标基因组前导链和滞后链七的基因区别对待,这样在对水平转移基因的预测时会取得更好的结果。通过对干扰RNA的降解效率和细菌基因组水平转移基因的预测,深入理解了设计机器学习预测模型的5个步骤:(1)数据收集:采集到足够并且具有代表性的数据是得到很好的预测性能的前提;(2)特征选取:提取具有明显生物学意义和良好分类性能的特征,是设计过程中最关键的一步;(3)模型选择:(4)训练与预测;(5)模型性能评价。
2.蛋白质-核酸复合物中结合残基及结合核苷酸的统计分析
蛋白质-核酸相互作用机制到目前为止还不是很清楚,尤其是蛋白质-RNA相互作用。因此,我们收集了蛋白质结构数据库(protein data bank,PDB)中所有的蛋白质-核酸复合物结构数据,对复合物中结合残基和结合核苷酸的相对使用偏性进行了统计分析。主要的结论有:(1)不同功能的蛋白质-核酸复合物间的核酸-结合残基数量存在显著差异。这说明,在蛋白质与核酸的相互作用过程中,蛋白中核酸-结合残基数量与复合物的功能密切相关。我们推测,蛋白中的结合残基数量与蛋白质是否需要与核酸分子大面积牢固结合紧密相关。(2)在蛋白质-DNA和-RNA的相互作用中,碱性氨基酸都是最受欢迎的,这主要是因为碱性氨基酸侧链带有正电荷,容易与带负电荷的核苷酸分子相互吸引,并且碱性氨基酸侧链都比较长,灵活性好,更容易摆动,易于与核苷酸分子作用;(3)氨基酸的极性大小在决定它是否与RNA分子进行结合起到重要的作用;同时发现氨基酸的侧链形成的空间位阻在氨基酸与RNA分子进行相互作用的过程中会影响它们的结合:另外,还发现偶极矩方向在氨基酸与RNA的相互作用中起到非常重要的作用,方向的改变会导致氨基酸与RNA结合的水平大为降低:在蛋白质-DNA复合物中也发现相似的规律,但不如蛋白质-RNA复合物那样明显,这表明也许还有其它物化性质影响着残基与DNA分子的结合;(4)随着定义结合残基的距离阈值的增大,残基的特异性降低,然而受欢迎与不受欢迎的氨基酸的种类没有任何变化;(5)不同功能的蛋白质-核酸复合物中核酸-结合残基对氨基酸类型都有特异性选择,并且这种特异性选择在不同功能的复合物之间相似。
3.蛋白质中DNA-结合残基的预测
我们利用PDB数据库中所有的蛋白质-DNA复合物结构数据来训练模型,因为训练数据集大,而随机森林算法(RF)具有速度快、鲁棒性好的特点,所以我们使用RF算法来构建我们的模型。编码氨基酸序列的组合特征主要集成了序列的进化信息、二级结构信息和序列正交编码信息(反映氨基酸的偶极矩和侧链体积二种物化性质)。由于蛋白质中结合残基位点数目要远小于非结合位点数目,我们提出一种新的算法来处理训练数据中正负样本数目不均衡的问题。结果显示:我们的模型达到了很好的预测效果,具有91.41%准确率,0.70 Matthew相关系数和0.913AUC值。到目前为止,我们的RF模型是所有不利用三级结构信息来预测DNA-结合残基的模型中预测效果最好的。通过实例,验证了我们的RF模型有助于理解蛋白质-DNA相互作用。我们构建了在线预测平台DBindR(http://www.cbi.seu.edu.cn/DBindR/DBindR.htm)用来预测蛋白质中的DNA-结合残基。
4.蛋白质-核酸复合物中氢键和范德华力的氨基酸和核酸相对使用偏性的统计分析
氢键和范德华力是蛋白质-核酸复合物中最主要的相互作用力。我们利用HBPLUS软件计算了复合物结构中的氢键和范德华力,然后对氢键和范德华作用对中的氨基酸和核苷酸的相对使用偏性进行了统计分析。主要的发现有:(1)在蛋白质-DNA复合物中,氢键数量略小于范德华作用对数量;而在蛋白质-RNA复合物中,氢键数量要远少于范德华作用对数量。(2)在蛋白质-DNA复合物中,ARG和LYS形成氢键和范德华力作用的能力突出,且形成氢键的能力要高于范德华力。这主要是因为ARG和LYS侧链上含有较多的能够形成氢键的N和O原子,而且侧链较长,摆动性好,更易于核苷酸分子形成氢键。而在RNA分子中不存在明显的大小沟结构,所以ARG和LXS这种优势减弱,形成氢键能力降低。而相比较而言,侧链不带电荷的ASN、SER、THR形成氢键的能力明显增强,这主要是因为它们的侧链都含有能够形成氢键的-OH基团,并且侧链短,分子量小,而RNA分子结构更为灵活,这样的氨基酸侧链结构更易于与RNA分子形成氢键作用。(3)随着偶极矩的增大,氨基酸与核苷酸形成氢键与范德华力的能力增强,说明氨基酸的极性大小在残基与核苷酸形成氢键与范德华力的过程中起到至关重要的作用。另外,氨基酸侧链的体积也会影响复合物中氢键与范德华相互作用的形成。(4)对核酸而言,各种碱基与残基形成氢键与范德华作用的能力区别不大。(5)氨基酸-核苷酸组合在不同功能的蛋白质-核酸复合物中形成氢键与范德华作用的能力差异不显著。
5.蛋白质-核酸复合物中氢键和范德华作用对数量的预测
我们利用支持向量回归机模型(SVR)和一组合特征直接从蛋白质和核酸序列来预测复合物中氢键和范德华作用对的数量。这一组合特征集成了序列长度、氨基酸三联体频率和核酸二联体频率三部分信息。我们的SVR模型取得了很好的预测效果。例如,对蛋白质-DNA复合物中的氢键数量预测时取得了2.672RMSE值、0.475 DevAp值和0.883 Pearson相关系数值(r)。进一步的特征分析发现核酸二联体频率信息在预测氢键和范德华作用对数量中具有重要的贡献。我们也发现氨基酸的极性大小在其与核酸形成氢键与范德华力的过程中起到至关重要的作用。我们构建了在线预测平台H-VDW(http://www.cbi.seu.edu.cn/H-VDW/H-VDW.htm)用来预测蛋白质-核酸复合物中氢键和范德华作用对的数量。