论文部分内容阅读
蛋白质谱图库搜索工具在蛋白质组学分析中被频繁使用,工具的核心部分——谱图相似度计算过程,直接决定了工具的性能。谱图相似性计算过程通常包含特征提取和打分函数计算两部分,谱图特征提取对整体性能起着直接而重要的作用。然而,在现有的谱图库搜索工具中,谱图特征提取方法的设计,主要依靠研究者的先验知识,其特征集只包含少量参数,谱图的大量隐含特征没能有效利用。同时谱图库搜索工具的计算性能,直接限制它们在蛋白质组学谱图大数据上的知识挖掘能力。尤其是,现有的工具每次执行搜索均需进行谱图特征提取操作,同一计算过程可能多次重复,极大地浪费了计算资源。针对上述谱图库搜索工具及其特征提取的不足,本文完成了如下研究内容:1.训练了一种基于深度学习的谱图特征提取模型——DLEAMSE(Deep LEArning MS/MS Spectra Embedder),其训练结构基于孪生网络构建,训练与测试数据集由包含多仪器、多物种的PRIDE Cluster高质量谱图簇数据构建。结果表明,DLEAMSE在测试集上的受试者工作特征曲线下的面积(AUC)达到96.2%。同时本文还基于Faiss,将PRIDE Cluster的Human谱图库对其自身进行搜索,结果中正确的谱-谱匹配数达到95.34%,这说明来自不同肽段的谱图,通过模型获得的隐空间中的嵌入点,能够被阈值有效区分。2.针对目前还未有基于传统算法和基于深度学习模型的谱图相似性方法的比较评估这一现状,本文在拟南芥、小鼠和酵母数据上,将基于深度学习模型的方法与五种传统方法进行分类性能比较评估。结果表明,基于DLEAMSE的方法,在分类性能上,紧随归一化点积和皮尔逊相关系数方法之后,较GLEAMS表现更优。在计算性能上,基于DLEAMSE的方法则在处理大规模数据上更具优势。3.针对现有谱图库搜索工具的不足,本文提出基于DLEAMSE模型的谱图库搜索方法,该方法基于Faiss索引搭建,包括两个子流程:谱图库索引构建和谱图库索引搜索。为评估方法的鉴定性能,本文在NIST的Human谱图库与MHCCLM3细胞系质谱数据上,将本文的方法与Spectra ST进行比较。结果表明,该方法具有良好的谱图鉴定性能,并在计算性能上表现出巨大的优势,搜索耗时不到Spectra ST的1/10000,证明该方法适用于大规模数据的处理。总之,本文提出的特征提取模型和谱图库搜索方法,具有良好的创新性,为蛋白质组学的大数据的数据分析做出了积极的贡献。