蛋白质结构数据库的信息挖掘

来源 :同济大学 | 被引量 : 5次 | 上传用户:wolaixunbao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的实施和生物信息学的迅速发展,通过基因组测序、蛋白质序列测定和结构解析等实验,人们获得了大量的关于蛋白质结构的原始数据,并且建立了众多的蛋白质结构数据库。其中由美国布鲁克海文国家实验室建立的蛋白质的基本立体结构数据库:蛋白质数据银行(Protein Data Bank,简称PDB)是世界上最为完整的蛋白质结构信息数据库,是我们研究蛋白质结构及其相关领域的基础,也是本文进行数据挖掘的对象。 生物信息学的主要目的之一在于了解蛋白质中氨基酸序列和蛋白质三维结构之间的关系。如果知道了这种关系,就可以从氨基酸序列可靠地预测蛋白质结构。然而,序列和结构间的关系并不简单。本文中,我们利用数据挖掘得到的统计信息数据库对蛋白质的二级结构进行了预测。 我们的主导思路是:通过对PDB数据库中的氨基酸序列和结构序列进行切片处理,得到蛋白质序列和结构的切片数据库,然后利用数据库技术和数据挖掘方法对这些切片进行数据挖掘工作,从中发现一些内在的规律,并建立了基于PDB数据库的蛋白质切片统计信息数据库。利用这个统计信息数据库和我们数据挖掘得到的知识,设计了基于蛋白质统计信息数据库的蛋白质二级结构预测系统。为了验证新的预测方法,我们选取了20条最近发布的且不在我们的统计信息库中的蛋白质序列进行预测。其平均Q3准确率为75.10%,其中有6个预测样本的Q3值超过了80%。 本文主要分为三个部分: 第一部分主要介绍了目前数据挖掘的主要方法、原理以及数据挖掘在生物信息学众多领域的应用。 第二部分详细介绍了我们数据挖掘的对象和方法以及得到的丰富统计信息和对这些信息的可视化分析等处理。 第三部分主要是讨论了目前蛋白质结构预测的主要流程和方法,提出了我们的基于统计信息数据库的蛋白质结构预测方法。 在本文末尾,我们对预测工作中遇到的问题进行了探讨,并提出了很多改进的设想。我们认为,利用数据库技术和数据挖掘的方法来处理大量的蛋白质
其他文献
目的观察孟鲁司特钠在小儿哮喘治疗中的临床应用效果。方法随机抽取医院2012年10月-2015年12月收治的哮喘患儿120例,将所有患儿随机分为观察组和对照组,每组60例,对照组采用
声发射(Acoustic Emission,AE)信号处理是声发射技术的重点研究内容,也是无损检测评估中的关键环节。AE信号对结构内部损伤程度、类型和位置的识别是AE检测技术研究的核心。A
将实践临床护理工作的经验与相关理论相结合,对机械通气患者气管插管的护理工作进行总结。对气道进行妥善的气道管理,做好预防感染工作,使患者呼吸顺畅保证正常氧供给,尽可能
在经济新常态下,开放作为“十三五”五大发展理念之一,更加突显了外商直接投资在我国经济发展中的重要地位。改革开放以来,我国经济迅速崛起,利用外资规模不断扩大,并在2002
国家试点实施土地经营权抵押贷款制度为解决农户日益增长的资金需求提供了一条有效途径。农户土地经营权抵押贷款参与意愿影响土地抵押贷款实施的可持续性,提高农户的参与意
我国是世界上第一水产养殖大国,改革开放以来,水产养殖行业更是取得了迅猛发展。相对于目前国内水产养殖业的规模,以及国外渔业设备的技术水平,我国的渔业现代化发展相对滞后
随着城镇化进程的加快,非农用地挤占耕地现象突出,同时受传统保护自然资源模式影响,人们的关注点多在耕地资源的经济价值和社会价值,而忽视了耕地资源的生态价值。耕地资源的
现代环境艺术属于新兴行业,发展时间较短,且拥有极大的发展潜力。就当前的环境艺术设计而言,涌现出越来越多新的作品,不仅具有浓厚的传统色彩,同时极富现代气息。尽管环境艺
海洋酸化会导致海水pH值和碳酸钙饱和度的降低,从而对钙质生物包括贝类的生存造成威胁。本研究以杂色鲍、皱纹盘鲍、福建牡蛎、方斑东风螺和沙筛贝等5种经济贝类作为研究对象
亲社会说谎是日常生活中很常见的一种现象,但是关于亲社会说谎的研究还存在许多问题有待解决,比如,当遇到一个沮丧悲伤的人时,你会选择亲社会说谎安慰他/她吗?虽然已有多项研