基于深度学习的蛋白质谱图库搜索策略研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ywx789789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质谱图库搜索工具在蛋白质组学分析中被频繁使用,工具的核心部分——谱图相似度计算过程,直接决定了工具的性能。谱图相似性计算过程通常包含特征提取和打分函数计算两部分,谱图特征提取对整体性能起着直接而重要的作用。然而,在现有的谱图库搜索工具中,谱图特征提取方法的设计,主要依靠研究者的先验知识,其特征集只包含少量参数,谱图的大量隐含特征没能有效利用。同时谱图库搜索工具的计算性能,直接限制它们在蛋白质组学谱图大数据上的知识挖掘能力。尤其是,现有的工具每次执行搜索均需进行谱图特征提取操作,同一计算过程可能多次重复,极大地浪费了计算资源。针对上述谱图库搜索工具及其特征提取的不足,本文完成了如下研究内容:1.训练了一种基于深度学习的谱图特征提取模型——DLEAMSE(Deep LEArning MS/MS Spectra Embedder),其训练结构基于孪生网络构建,训练与测试数据集由包含多仪器、多物种的PRIDE Cluster高质量谱图簇数据构建。结果表明,DLEAMSE在测试集上的受试者工作特征曲线下的面积(AUC)达到96.2%。同时本文还基于Faiss,将PRIDE Cluster的Human谱图库对其自身进行搜索,结果中正确的谱-谱匹配数达到95.34%,这说明来自不同肽段的谱图,通过模型获得的隐空间中的嵌入点,能够被阈值有效区分。2.针对目前还未有基于传统算法和基于深度学习模型的谱图相似性方法的比较评估这一现状,本文在拟南芥、小鼠和酵母数据上,将基于深度学习模型的方法与五种传统方法进行分类性能比较评估。结果表明,基于DLEAMSE的方法,在分类性能上,紧随归一化点积和皮尔逊相关系数方法之后,较GLEAMS表现更优。在计算性能上,基于DLEAMSE的方法则在处理大规模数据上更具优势。3.针对现有谱图库搜索工具的不足,本文提出基于DLEAMSE模型的谱图库搜索方法,该方法基于Faiss索引搭建,包括两个子流程:谱图库索引构建和谱图库索引搜索。为评估方法的鉴定性能,本文在NIST的Human谱图库与MHCCLM3细胞系质谱数据上,将本文的方法与Spectra ST进行比较。结果表明,该方法具有良好的谱图鉴定性能,并在计算性能上表现出巨大的优势,搜索耗时不到Spectra ST的1/10000,证明该方法适用于大规模数据的处理。总之,本文提出的特征提取模型和谱图库搜索方法,具有良好的创新性,为蛋白质组学的大数据的数据分析做出了积极的贡献。
其他文献
目前光栅机械刻划加工是采用在铬、玻璃等基底上通过真空蒸镀一层微米级铝薄膜后,用金钢石刻划刀作直线往复运动加工而成,蒸镀复合铝薄膜的力学性能对刻划成槽的质量影响较大
微囊藻毒素-LR (MC-LR)是淡水蓝藻产生的毒性极强的毒素,通过接触、饮用等途径对人体健康造成极大威胁。通过对产微囊藻毒素-LR的铜绿微囊藻进行培养,采用超声波破碎、溶剂萃取法
语音是语言学习的基础。在我国,学生缺少用英语的大环境。学生在学习英语语音的过程中,不可避免地受母语发音的影响,不利于第二外语发音规则的建立。当代时代背景下,越来越多
讨论了一种由两个光纤陀螺与两个石英加速度计构成的两轴稳定平台,着重对光纤陀螺在稳定回路中应用进行了分析与设计,并针对光纤陀螺较为特殊的随机游走误差对稳定系统的影响进
古人云:“凡事预则立,不预则废”。意思是凡事在事前要预先进行充足的筹备,不然可能无法顺利的完成。这一观念对于人物纪录片的创作来说,同样适用。人物纪录片可以带领我们走
时间序列是指某个复杂动态系统中的被控对象在不同时间点的实际观测值。时序数据的预测建模则是根据已知数据,构建能反映数据内部所隐含某种动态关系的数学模型,揭示其变化规