基于深度卷积网络和数据融合的蛋白质功能预测研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:c329619217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质(Protein)通常由成熟m RNA(可变剪切异构体-isoform)翻译而成,它们是构成生命体的重要物质基础并参与各种生命过程。随着高通量生物技术的广泛应用,蛋白质序列数据、蛋白质功能标注数据、转录组测序数据(RNA-Seq)的规模不断增长,功能未知的蛋白质数量也在不断增加。准确、全面地对蛋白质的功能进行标注不仅可以帮助人们正确理解生命机理,对药物研发、疾病分析、基因富集分析等方面也提供了重要的数据基础。因此,蛋白质功能标注是后基因组时代的基本任务之一。基因本体(Gene Ontology)使用一系列的标准化GO术语来标记蛋白质功能。基因本体有45000多个功能术语,并且术语间存在着复杂的结构关系,构成一个有向无环图(DAG)。由于生物湿实验的局限性,蛋白质通常仅被其中的几个或者几十个术语进行标注,存在大量的缺失,这为准确的预测蛋白质的功能带来了巨大挑战。不仅如此,单个基因在生成蛋白质的过程中会转录生成多个不同的可变剪切异构体(isoform),进而翻译生成功能不同的蛋白质变种。不同的蛋白质变种拥有不同的功能,但它们均由同一个基因转录翻译产生,这阻碍了计算方法准确地识别蛋白质变种功能。转录组测序(RNA-Seq)技术的蓬勃发展,带来了大量的转录组数据,为蛋白质变种层面准确识别功能奠定了基础。基于此,在更细粒度的研究中,预测蛋白质变种的直接翻译模板isoform的功能是蛋白质功能预测的新方向,并成为近几年蛋白质功能预测的研究热点。本文结合多种蛋白质数据以及基因本体结构,针对当前蛋白质功能预测算法存在的基因本体数据、RNA-seq数据利用不充分的问题,进行蛋白质功能预测研究,以探索蛋白质特征与蛋白质功能间的潜在联系,主要工作如下:(1)提出一种基于基因本体结构的深度模型(Deep GOA)预测蛋白质功能。由于目前的基于深度学习的蛋白质功能预测方法未能较好的利用基因本体结构数据,该方法首先利用GO术语的注释频率和层次结构来初始化它们之间的相关性,再在GO有向无环图上应用图卷积网络(GCN)来学习GO术语的语义表示和潜在的相互关系。同时,该方法将蛋白质序列转化为one-hot编码,再使用卷积神经网络(CNN)中的多种尺寸的卷积核来学习蛋白质序列相对于语义表示的特征表示。之后,Deep GOA计算两个网络的点积,从而端到端的训练整个网络。在人类和玉米蛋白质数据上进行的实验都显示了该方法在蛋白质功能预测中的有效性,并且Deep GOA优于现有的基于深度模型的蛋白质功能预测方法。在消融实验中,证明了该深度模型中GCN和CNN子网络的有效性。(2)提出一种基于深度多示例学习的模型(DMIL-Iso Fun)预测蛋白质变种的直接翻译模板isoform的功能。该方法首先通过RNA-Seq数据建立了isoform层面的共表达网络并且将isoform序列的one-hot编码表示。之后建立了一个多示例学习的卷积神经网络(multi-instance CNN),并且通过isoform的序列数据与蛋白质层面的标注数据,提取isoform序列特征并且初始化isoform的功能标注。之后在isoform的关联网络中,建立了图卷积网络利用转录组测序数据(RNA-Seq)对isoform的功能标注进行了细化。基于玉米B73第五版基因组数据中已知的isoform功能注释,DMIL-Iso Fun相比现有的isoform功能预测方法在精度上有显著的提升。本文还进一步研究了特定的GO术语:DNA结合(GO:0003677),锌离子结合(GO:0008270)和磷脂酰肌醇磷酸激酶活性(GO:0016307),DMIL-Iso Fun能够准确的在isoform层面上区分这些GO术语。在人类数据集也验证了该方法的可行性与优越性。
其他文献
紫色土坡耕地是我国西南地区重要的耕地资源,具有生产力高,侵蚀力强的特点。土壤侵蚀是坡耕地退化,水土流失和生产力下降的主要原因,对坡耕地的可持续利用具有极大的潜在危险。坡耕地土壤不仅是农业生产的基础,还是土壤侵蚀的对象。了解坡耕地的耕层形态,研究土壤侵蚀对耕地理化性质的影响,建立合理的耕层评价最小数据集。紫色土坡耕地,分析作物与土壤适宜性的关系,弄清坡耕地土壤质量障碍的因素,可为评价和控制坡地合理耕
在世界各地的司法改革中,信息系统已成为司法部门组织和管理司法业务流程的关键技术,藉以改善司法信息资源共享及提升司法服务效率。当司法信息系统的执行流程,即司法工作流不满足乃至违反司法制度要求时,将会降低司法服务质量及效率,继而令司法部门陷入失信危机。为此,利用司法信息系统来协调及管理司法流程时需确保司法工作流的正确性和可信性,如确保司法工作流的执行符合法律法规和实践规则、司法工作流所需数据的完整性和
随着人们生活水平的提高,越来越多的人更加注重蔬菜的营养价值和风味,如何提高蔬菜的营养和风味品质已成为当今研究的热点。维生素C、糖、氨基酸和挥发性化合物等的含量对蔬菜的营养和风味品质建成具有深远意义。硼是高等植物必需的六大微量元素之一,在作物的生长发育中发挥着重要作用。目前已有大量研究表明,在硼缺乏条件下施用硼肥有助于提高蔬菜的营养和风味品质,但大白菜生长过程中的最适硼浓度及其作用机制仍不明确。为了
本文主要研究无约束优化问题的线搜索方法和自适应信赖域方法。全文共分三章。 第一章为序言,主要介绍了无约束优化问题的线搜索方法和自适应信赖域方法的研究现状和研究价值,以及本文的主要研究成果。 第二章为无约束优化问题线搜索方法的收敛性。对于无约束优化问题,线搜索方法是求解该问题的十分有效的方法,许多学者对此方法的收敛性作了深入广泛的研究,并取得了丰硕的成果。文献[12]中,Shi给出了线搜
分类是理解自然事物的重要方法。土壤分类是进行土壤资源评价,国内外土壤学术交流,合理开发利用土壤及农业技术转让的基础。紫色土不仅在中国存在,同时广泛分布于全球各地。但因地理限制,紫色土的名称和分类在不同国家和地区之间存在一定差异,致使国际之间难于了解、改良和利用紫色土。当今国际上土壤分类体系的主流和趋势是以定量分类为特点的美国土壤系统分类(ST)和世界土壤资源参比基础(WRB)。因此,厘清紫色土在S
情绪是一种常见的心理现象,它时时刻刻都在影响着我们的生活。随着社会的发展,情绪研究逐渐成为心理学的热点研究话题。舞蹈,是具有丰富情感的艺术。其表“情”的功能尤为重要。我国著名舞蹈家吴晓邦先生就曾提出舞蹈的“三要素”,分别是情感、节奏及画面。他认为舞蹈是以人的肢体动作作为介体进行表现,而肢体动作则是来源于人们对于丰富情感的表达。但大多数情况下的舞蹈作品是通过视听双通道的艺术形式呈现给观众。舞蹈专业学
随着互联网的不断发展,各种社交平台的不断涌现,人与人之间的联系越来越紧密,交流与交往的方式也越来越多样化。为了更好的分析、理解这些社会现象,社会网络分析逐渐成为计算机领域的一个研究热点,即利用计算机技术研究社会群体之间的关系以及群体成员之间互动所导致的一系列社会现象。社会群体的产生、社会习俗形成等社会群体动态行为的研究一直是计算机科学和人工智能领域的重要研究课题。将一个群体中所有成员团结起来,形成
学位
区块链中的工作量证明机制(Proof of Work,Po W)是一种通过矿池间的挖矿竞争来完成区块记账权和奖励分配的共识机制。因其简单易实现及去中心化程度高等特点,已成为当前区块链项目的主流共识形成方案。然而,Po W的安全性依赖于矿池会遵守共识规则诚实挖矿这一基本假设。但最新研究表明,当矿池挖到新区块后选择隐藏并择机公布的方式,可能获得优于诚实挖矿的超额收益,这种策略即自私挖矿。自私挖矿将严重
随着互联网的发展和普及,网络信息搜寻已经成为人们日常获取信息的重要方式之一。现实生活中人们往往与思想一致的人群交往,但在虚拟网络环境中人们反而能够更广泛均衡地搜寻、交流和共享信息,因此接触不一致信息的可能性大大增加。在此情况下,有学者提出在网络环境中进行日常信息搜寻,可能会导致用户倾向于搜索与其原有的信念、态度、假设或期望一致的信息,即更愿意关注和选择与自身观点或认知一致的信息,这种行为被称为偏差