蛋白质结构预测的穿线法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:mapgis_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质功能是由其三维结构决定的,因此研究蛋白质的功能的前提是深入了解它的结构。实验测定结构昂贵的花费,加上高通量测序技术的驱动,使得预测方法的地位愈显重要。蛋白质结构预测方法主要有三种:同源建模、穿线法和从头预测法,本文主要就穿线法展开论述。   我们先综述了序列分析中的三种统计模型,pair-HMM,profile-HMM和共变模型,它们在序列联配、描述同源序列和刻画共变性等方面有着重要应用。我们对这三种统计模型的推断和训练方法做了详细叙述,并说明了它们和相应的启发式方法的联系。同时,我们还从产生式模型的角度把它们和文法进行了比较,从概率图模型的角度对它们的复杂性进行了分析。   我们在CASP8中观察到一种有趣的联配现象-“短接”现象。现有的穿线法都把它视为空位而导致了错误的联配。我们把这种现象成功的应用到穿线法中来。为此,我们先给它一个形式化的定义,然后设计了一个新的穿线法打分函数,其中包含一个“短接”打分项。最终,我们用动态规划算法得到这个打分函数指导下的最优的联配。我们的方法在一些通用的测试集上面和其他方法都做了比较,结果表明,此方法不仅能够成功克服“短接”现象带来的障碍,而且在没有这种现象的情况下,该方法也能得到高质量的联配。   现有的穿线法打分函数相对简单,它们或者无法刻画残基的相互作用,或者只用相互作用倾向性矩阵来刻画;而从头预测方法中用到的能量函数则对残基远程相互作用进行了精细的描述,例如刻画了远程作用的序列距离相互作用的方向等。因此,我们试图将能量函数引入穿线法中。为此,我们需要解决两个困难:为了克服搜索空间的差异,我们从联配恢复出部分结构再用能量函数来评价;为了克服新的打分函数带来的优化难度的提高,我们设计了一个局部搜索算法来代替动态规划算法进行优化。实验结果表明用能量函数来评价联配将会提高穿线法的性能。   结构模体在寻找远程同源、结构预测等方面已经获得了成功的应用。我们研究了一类叫做H-型的结构模体,它包含两个等长的片段,且要求两个片段的中心残基之间有远程相互作用。我们在序列-结构联合空间中把这些H-型聚在一起。最后,我们利用这个模体库,对一些蛋白进行了标注。
其他文献
带有通配符的字符串匹配问题已成为诸多领域的研究热点,例如生物信息学、数据库系统中的SQL查询、搜索引擎的文本索引、文件名查找、网络入侵检测等领域。然而,带有通配符的
伴随着信息技术的迅速发展,网络信息量以指数级增长,以及网络信息检索工具效率低下,使用户很难从网上检索到所需信息。在本人参与的科技信息资源中心系统中,由于科技信息资源数据
随着世界各国在空间探测领域内的深入研究和扩展实验,空间探测领域使用的计算机系统所需完成的任务越来越复杂。但在空间环境中,由于空间辐射的影响,计算机系统很容易发生硬件故
具有真实感的语音可视化合成技术一直是多媒体和人机交互领域的一个有趣而具有挑战性的研究方向。它可以广泛地应用于教学、数字娱乐、远程会议以及电影游戏等方面。   本
基于关键字的搜索引擎是人们在互联网上搜索信息的重要方式,而互联网上大量的关系数据库则构成了DeepWeb的主要组成部分,因此面向关系数据库的关键字搜索成为该领域学者关注
近年来在线社交网络(Online Social Network,简称OSN)飞速发展,用户数量不断增加。在线社交网络以用户为中心,每个用户和网络中的其他用户成为朋友,形成人际关系网络,用户之间通过
近年来,随着各种数据获取技术与影像技术的逐渐成熟,三维标量场可视化技术已经成为科学计算可视化领域中的研究热点。体绘制作为一种重要的三维标量场可视化技术,在科学计算、医
数据驱动的人体动画合成采用捕获的真实人体运动数据驱动虚拟人体模型来产生动画,该方法由于动画制作效率高,所得结果真实感强,在近年来得到了广泛应用。但是由于运动捕获数据只
物种的鉴别与分类是生物学等科学领域中一项较为常见的科学研究内容。传统的基因鉴别、形态学鉴别等物种鉴别方法都需要专业的数据库支持,并且需要专业人员对样本的基因、形态
随着web2.0技术的产生和发展,用户产生的内容(User-Generated Content,UGC)成为互联网中资源的重要来源之一。YouTube、YouKu等UGC视频系统近年来取得了重大的成功。YouKu,作为