论文部分内容阅读
最近五年内,在大量生物医学研究问题的驱动下,整体蛋白质的鉴定技术获得了快速发展:高通量的分离技术使得一次研究中可以同时鉴定到超过1,000个完整的蛋白质;高精度的质谱技术大大提高了整体蛋白质质谱数据的质量。大规模和高精度的质谱数据分析更加依赖于高效的生物信息学算法与软件的支持。然而,与分离和质谱技术的发展速度相比,生物信息学算法研究与软件开发则远远滞后。在此背景之下,本文以高效的算法研究与软件开发为主要技术手段,力图在保障精度的前提下显著提高当前整体蛋白质鉴定中的数据处理效率。 具体讲,本文在下列三个方面做出了自己的贡献: 在分析比较已有方法的基础上,本文提出了一种基于SVM在线训练方法的质谱预处理算法pParseTD,它通过SVM模型引入蛋白质母离子的多维特征信息,实现了母离子的检测及其分子质量校准,并将复杂的串联质谱数据转化为单电荷的单同位素等效质量谱峰。在测试数据集上的结果表明,与Xtract软件相比,pParseTD可以在少导出约29%的母离子数量下,多召回约22%的正确母离子,在预处理算法的精度上得到了显著提升。 在蛋白质鉴定算法研发方面,本文设计了一种通过先查询序列标签来鉴定蛋白质,然后通过预处理算法获得的精确母离子质量与蛋白质的理论质量差来确定多修饰组合的算法,并开发出了完整的鉴定软件pTop1.0。通过采用系列索引技术和动态规划算法大大提高了pTop的检索效率。在测试数据集上的结果表明,pTop的鉴定速度比MS-Align+软件快80至118倍。 本文开发的pTop整套软件为高通量的整体蛋白质鉴定提供了一套高效准确的数据处理工具,将会促进整体蛋白质鉴定技术更广泛深入的应用;同时也为本领域内的生物信息学研究在技术方法上提供另一种思路。