高效的整体蛋白质鉴定算法研究与软件开发

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wangcongyu003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近五年内,在大量生物医学研究问题的驱动下,整体蛋白质的鉴定技术获得了快速发展:高通量的分离技术使得一次研究中可以同时鉴定到超过1,000个完整的蛋白质;高精度的质谱技术大大提高了整体蛋白质质谱数据的质量。大规模和高精度的质谱数据分析更加依赖于高效的生物信息学算法与软件的支持。然而,与分离和质谱技术的发展速度相比,生物信息学算法研究与软件开发则远远滞后。在此背景之下,本文以高效的算法研究与软件开发为主要技术手段,力图在保障精度的前提下显著提高当前整体蛋白质鉴定中的数据处理效率。  具体讲,本文在下列三个方面做出了自己的贡献:  在分析比较已有方法的基础上,本文提出了一种基于SVM在线训练方法的质谱预处理算法pParseTD,它通过SVM模型引入蛋白质母离子的多维特征信息,实现了母离子的检测及其分子质量校准,并将复杂的串联质谱数据转化为单电荷的单同位素等效质量谱峰。在测试数据集上的结果表明,与Xtract软件相比,pParseTD可以在少导出约29%的母离子数量下,多召回约22%的正确母离子,在预处理算法的精度上得到了显著提升。  在蛋白质鉴定算法研发方面,本文设计了一种通过先查询序列标签来鉴定蛋白质,然后通过预处理算法获得的精确母离子质量与蛋白质的理论质量差来确定多修饰组合的算法,并开发出了完整的鉴定软件pTop1.0。通过采用系列索引技术和动态规划算法大大提高了pTop的检索效率。在测试数据集上的结果表明,pTop的鉴定速度比MS-Align+软件快80至118倍。  本文开发的pTop整套软件为高通量的整体蛋白质鉴定提供了一套高效准确的数据处理工具,将会促进整体蛋白质鉴定技术更广泛深入的应用;同时也为本领域内的生物信息学研究在技术方法上提供另一种思路。
其他文献
高等院校加快信息化建设步伐的手段,主要是通过各种方式引进大量电子资源,提供丰富资料。由于某些限制,许多资源只能通过授权后校内网的IP地址访问,随着校外对资源的需求日益
随着软件开发技术的发展,软件建模已经成为其中的一个重要的组成部分,而软件建模需要软件建模工具的支持。当前,软件建模工具的功能在不断的变化发展;同时,软件应用的领域也
互联网正在快速地发展,面对信息的海洋,如何从中发现、选择和查询所需要的数据和服务信息就成为一项重要而迫切的研究课题。为了适应这种需求,提出了“语义Web”和”Web服务”的
关系网络是人或其它对象通过相互联系和影响构成的结构或系统,通过对关系网络的研究,有助于发现仅依靠个体信息无法获得的重要信息。关系网络中节点价值计算是对关系网络中的对
安全策略模型是开发安全操作系统的基础,它对安全策略的描述准确与否,决定着所开发的系统安全机制是否能正确地实施安全策略。因此,安全模型的研究对于安全操作系统的开发具有重
学位
视景仿真系统广泛应用于各个研究领域,如军事科学仿真、空间任务仿真、城市规划等等。近年来,随着我国空间科学事业的迅速发展,基于空间任务的视景技术显得越来越重要,利用视
对流体现象的仿真模拟是计算机图形学中的一个重要研究方向,在许多领域尤其是电影、游戏中有着广泛的应用。在这些应用中,除绘制出具真实感的流体动画外,有时还需要以艺术化的手
软件复用是解决软件危机的一条切实可行的途径,软件构件库是软件复用的支持设施之一。构件库主要提供构件描述、分类、发布、存储、检索、反馈和评估等构件管理作用。当前,随着
性能分析与优化一直是计算机研究中的热点.著名的80-20原理告诉我们,程序中执行最为频繁的通常只是小部分被称为热点的代码.性能分析与优化的目的就是分析发现程序热点并使之
随着互联网带宽的优化,网络传输、视频压缩等技术的创新,视频已成为互联网最为重要的应用之一,是互联网流量主要贡献者。互联网视频访问模型不仅是视频分发缓存策略与系统设计实