论文部分内容阅读
蛋白质功能是由其三维结构决定的,因此研究蛋白质的功能的前提是深入了解它的结构。实验测定结构昂贵的花费,加上高通量测序技术的驱动,使得预测方法的地位愈显重要。蛋白质结构预测方法主要有三种:同源建模、穿线法和从头预测法,本文主要就穿线法展开论述。
我们先综述了序列分析中的三种统计模型,pair-HMM,profile-HMM和共变模型,它们在序列联配、描述同源序列和刻画共变性等方面有着重要应用。我们对这三种统计模型的推断和训练方法做了详细叙述,并说明了它们和相应的启发式方法的联系。同时,我们还从产生式模型的角度把它们和文法进行了比较,从概率图模型的角度对它们的复杂性进行了分析。
我们在CASP8中观察到一种有趣的联配现象-“短接”现象。现有的穿线法都把它视为空位而导致了错误的联配。我们把这种现象成功的应用到穿线法中来。为此,我们先给它一个形式化的定义,然后设计了一个新的穿线法打分函数,其中包含一个“短接”打分项。最终,我们用动态规划算法得到这个打分函数指导下的最优的联配。我们的方法在一些通用的测试集上面和其他方法都做了比较,结果表明,此方法不仅能够成功克服“短接”现象带来的障碍,而且在没有这种现象的情况下,该方法也能得到高质量的联配。
现有的穿线法打分函数相对简单,它们或者无法刻画残基的相互作用,或者只用相互作用倾向性矩阵来刻画;而从头预测方法中用到的能量函数则对残基远程相互作用进行了精细的描述,例如刻画了远程作用的序列距离相互作用的方向等。因此,我们试图将能量函数引入穿线法中。为此,我们需要解决两个困难:为了克服搜索空间的差异,我们从联配恢复出部分结构再用能量函数来评价;为了克服新的打分函数带来的优化难度的提高,我们设计了一个局部搜索算法来代替动态规划算法进行优化。实验结果表明用能量函数来评价联配将会提高穿线法的性能。
结构模体在寻找远程同源、结构预测等方面已经获得了成功的应用。我们研究了一类叫做H-型的结构模体,它包含两个等长的片段,且要求两个片段的中心残基之间有远程相互作用。我们在序列-结构联合空间中把这些H-型聚在一起。最后,我们利用这个模体库,对一些蛋白进行了标注。