论文部分内容阅读
建立一个能够满足研究需要的生物信息学平台,包括整合的本地数据库平台,完善的软件集成系统以及自主开发出的新的计算理论,新的算法,新的软件体系来对产生的原始数据进行处理和分析,获得传统生物学实验工作无法得到的结果,是深化本实验室开展多年的蛋白质组学和蜘蛛毒素组学研究的一个重要任务。本文建立了小鼠和人的蛋白质组整合数据库、开发了一套包括结果文件的信息提取、功能预测、相互作用预测、代谢途径预测的综合蛋白质分析平台、改进了系统发生谱的蛋白质相互作用预测的算法、开发了一个基于序列信息的代谢途径预测方法,使实验室的数据处理与数据分析过程初步实现程序化。
全基因组序列的获得,促进了蛋白质组规模的研究生物功能的工具的发展。许多实验或‘insilico’的方法旨在保证生物学意义的同时,把单个的蛋白质聚类成网络。这些方法之中,系统发生谱的方法,是一个比较受欢迎的‘insilico’的蛋白质组预测方法,现已广泛用于蛋白质相互作用预测。通过整合物种的系统发生关系、同源性查找、蛋白质功能注释的信息,来提高预测的精确度。在细节上对参考物种以及同源性搜索进行研究,发现它们的选择对系统发生谱方法的预测准确度有着至关重要的影响。经优化得到的预测数据与改良版本预测出的相互作用数据进行比较的结果表明在预测蛋白质的功能联接时,优化后的系统发生谱方法具有更高的可靠性。本文探索了一个物种的代谢途径信息可用来构造另一个物种的代谢途径的可能性。本文利用从源物种的蛋白质相互作用数据平移得到的interolog数据搜索目标物种的"metabolog",它是被预测为与源物种的相应蛋白质具有相同的EC号或者具有相同的酶活性的蛋白质。使用KOG数据库中的同源蛋白质信息,从酵母的包含构造52个生物途径、涉及到1414个蛋白的3462对高的可信度的相互作用蛋白质平移,在线虫中获得了1622个蛋白质的9628对相互作用以及果蝇中1682个蛋白质的8708个相互作用对。基于这两组interologs数据,我们预测得到线虫的413个metabologs和果蝇的490个metabologs,其中45﹪同KEGG或ENZYME数据库中的描述匹配,部分没匹配的数据在两个物种的专门数据库WormBase和FlyBase能找到相关的描述信息,为KEGG或ENZYME数据库中的missing(丢失)蛋白质提供了侯选蛋白质的信息。