基于神经网络的蛋白质二级结构预测研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:peaktime30
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质二级结构预测问题是生物信息学的重要问题之一。本文对蛋白质二级结构预测问题进行了研究,建立了蛋白质二级结构预测数据库。研究了蛋白质的基本组成成分氨基酸的编码方式。基于CPN神经网络建立了单神经网路和多神经网络的预测模型。并利用它们对蛋白质二级结构进行了预测研究。其主要研究内容和成果如下: (1) 人工神经网络的研究。论文对神经网路的建模方法进行了理论分析探讨,得出概率神经网络、GMDH网络、LVQ网络、CPN网络适合用来进行蛋白质二级结构预测,但由于不同网络的形成的机制不同,对于处理本文所使用的编码数据时,会产生不同的问题。因此,在进行了不同方法的具体实验之后,总结出了效果最好的一种网络结构-CPN网络结构。 (2) 蛋白质二级结构评测数据库的建立。论文首先从同源蛋白质数据库(Homology Derived Secondary Structure ofProteins,简称HSSP)中提取出36个蛋白质文件:针对其包含复杂的数据形式,设计了一个提取数据的方法,对蛋白质数据进行预处理,提取出氨基酸序列。建立了由这些氨基酸序列构成的数据库。为蛋白质二级结构预测打下了良好的基础。 (3) 5种氨基酸编码方式的比较研究。论文针对正交编码、5位编码、Codon(基本型)编码、Codon(扩展型)编码及Profile编码等5个常用的编码方法。利用CPN神经网络,建立了蛋白质二级结构预测的评测模型。运用该模型研究分析了这5种编码方式对蛋白质二级结构预测精度的影响。结果表明,用富含“生物进化信息”的Profile编码方式可以得到较高的预测结果。 (4) 基于多神经网络的蛋白质二级结构预测模型。论文提出了一个由7个CPN神经网络组合成的多神经网络的蛋白质二级结构预测模型,该模型采用“profile”编码方式和氨基酸间的“距离”为激励输入信息,对蛋白质二级结构进行了预测。论文对从36个蛋白质提取的共4000个氨基酸的进行了预测研究和分析。结果表明:本文的多神经网络优于Zhu等人提出的多神经预测模型[19],它把蛋白质二级结构预测的平均精度从66.1502%[19]提高到83.8903%。
其他文献
XML以其可扩展性、结构性、平台独立性和自描述性等特点成为数据表示和交换的事实标准,越来越多的应用使用XML来存储、交换和发布信息。为有效的管理这种半结构化的数据,XML
在计算机视觉系统中,几何特征是识别物体的重要属性,当图像中物体的位置、方向或尺度发生变化时,利用物体的几何特征依然可以描述和分辨物体。线作为几何特征中的一种重要特
近年来,我国农村信息化建设取得长足发展,成绩显著。但在信息化建设领域方面,由于刚刚起步,目前农村信息内容发展还存在许多问题:各种信息系统自成体系,相互之间缺乏有效的协作;信息
在自然语言处理的研究中,词语聚类算法是被广泛研究的课题。它在自然语言处理各个应用中均扮演十分重要的角色。词聚类算法在文本信息检索,机器翻译,语音识别以及自然语言理解
由Bosch公司所开发的CAN总线控制技术,获得了国际标准化组织的认可及许多半导体器件制造商、网络系统开发商的支持,被广泛地应用于汽车、工程机械和工业现场控制,是一种性能优异
本文研究了数据集成环境下的ETL工具设计与实现技术,重点探讨了建立在Web服务基础上的ETL实现方式及人工智能技术在数据清洗方面的应用,并作了改进。本文首先介绍ETL的概念、
随着科学计算的日趋复杂,多单位协作日益频繁,大型科学与工程项目的组织与实施都面临着众多人员、大量异构计算资源、多信息系统之间的协作与交互。本文首先从研究目前国内外
Shamir于1984年开创性地提出了基于身份的公钥密码体制。在该体制中,Shamir建议使用能标识用户身份的信息作为公钥,比如名字或email地址。基于身份密码体制的主要优势在于它减
数字水印技术是近年来国际信息安全界兴起的一个前沿研究课题,是一种十分贴近实际应用的信息隐藏技术。数字水印技术通过把水印信息嵌入到数字图像、音频、视频等多媒体数字
虚拟水电仿真系统,是带有虚拟可视化场景的水电仿真系统。能够让水电站在培训学员和理论研究的过程中,直观地了解设备的运行状况,更重要的是给学员以真实操作的感受,减少学员