论文部分内容阅读
非规则二级结构对于稳定蛋白质折叠、功能及其调控具有重要作用。准确预测非规则结构区有助于蛋白质功能研究及对蛋白质工程化改造。非规则结构多变,识别较难,目前对其形成规律所知甚少。本文以一种基于氨基酸密码子和反密码子配对时中间位碱基形成的氢键数目进行氨基酸分类的方法(简称“氢键数方法”)为基础,通过对所建非规则结构片段集的分析,对非规则结构片段中氨基酸之间相互作用以及非规则结构片段形成规律有了进一步认识。
按照序列数据集组建原则,构建了一个蛋白质非规则结构片段集IrDCⅠ。提取日志表明:该集与来源数据集相比,氨基酸组成发生了很大变化;一端或两端邻接未知结构的片段在数据集中占到了87.4%,非规则结构可能是规则结构到未知结构之间的过渡区域。
对氢键数方法中氨基酸类聚的研究发现:同类残基倾向于相邻出现;类聚体在自然界蛋白质中大量存在;类聚体对二级结构具有一定倾向性。使用这种方法进行的氨基酸序列设计实例中,Loop区的设计与预测服务器给出的结果高度一致。
通过扩展Chou&Fasman方法,对非规则结构片段中残基相互作用进行了研究,结果表明:残基主要受到短程相互作用影响;强形成倾向氨基酸组对其它组氨基酸倾向性产生强促进作用;强反形成倾向氨基酸组对其它组氨基酸倾向性有强抑制作用;弱形成倾向组和弱反形成倾向组,对形成倾向组产生抑制或强抑制作用,对反形成倾向组产生促进或强促进作用;同一影响作用分组中,倾向因子相差不大的氨基酸相互作用不明显;大部分氨基酸C-端作用大于N-端;自身形成倾向或反形成倾向越大的氨基酸,所受影响越大。
选取IrDC Ⅰ数据集中具有可靠置信度和一定样本数的片段,生成了一个可靠片段集合。对此片段集合进行了多项统计计算,结论如下。
a) 氨基酸组成分析发现:各种氨基酸的含量差别很大,总趋势与氨基酸非规则结构倾向性有关;相关性分析表明置信度与序列长度或者片段样本数都无直接相关性,由此我们推断较长非规则结构片段中存在核区;
b)伴生概率分析发现:P和G对序列集合中出现的17种氨基酸均有很高的伴生概率;不具备对非规则结构倾向性的氨基酸在集合中的出现主要是和一些具有较强倾向性的氨基酸伴生;氢键数分类中同类氨基酸的伴生率并不均衡,每类中的不同氨基酸在结构形成中的作用不能简单的对等化;
c)位置偏好分析表明:具有强反形成倾向氨基酸偏向于出现在片段的起始和结尾,这类氨基酸的出现可能是核区的延伸所致,而其出现终止了核区的延伸;弱形成倾向或弱反形成倾向组氨基酸在位置分布上较多出现在序列起始或中间。
我们对本文发现的统计规律进行简化和近似,得到了一套非规则结构判定规则。其Matthew系数为0.187,总体预测水平并不理想。但预测准确率为59.4%,已经高于GOR Ⅰ的非规则结构预测准确率,在一定程度上反映了所得规律的可靠性。