论文部分内容阅读
蛋白质二级结构预测问题是生物信息学的重要问题之一。本文对蛋白质二级结构预测问题进行了研究,建立了蛋白质二级结构预测数据库。研究了蛋白质的基本组成成分氨基酸的编码方式。基于CPN神经网络建立了单神经网路和多神经网络的预测模型。并利用它们对蛋白质二级结构进行了预测研究。其主要研究内容和成果如下:
(1) 人工神经网络的研究。论文对神经网路的建模方法进行了理论分析探讨,得出概率神经网络、GMDH网络、LVQ网络、CPN网络适合用来进行蛋白质二级结构预测,但由于不同网络的形成的机制不同,对于处理本文所使用的编码数据时,会产生不同的问题。因此,在进行了不同方法的具体实验之后,总结出了效果最好的一种网络结构-CPN网络结构。
(2) 蛋白质二级结构评测数据库的建立。论文首先从同源蛋白质数据库(Homology Derived Secondary Structure ofProteins,简称HSSP)中提取出36个蛋白质文件:针对其包含复杂的数据形式,设计了一个提取数据的方法,对蛋白质数据进行预处理,提取出氨基酸序列。建立了由这些氨基酸序列构成的数据库。为蛋白质二级结构预测打下了良好的基础。
(3) 5种氨基酸编码方式的比较研究。论文针对正交编码、5位编码、Codon(基本型)编码、Codon(扩展型)编码及Profile编码等5个常用的编码方法。利用CPN神经网络,建立了蛋白质二级结构预测的评测模型。运用该模型研究分析了这5种编码方式对蛋白质二级结构预测精度的影响。结果表明,用富含“生物进化信息”的Profile编码方式可以得到较高的预测结果。
(4) 基于多神经网络的蛋白质二级结构预测模型。论文提出了一个由7个CPN神经网络组合成的多神经网络的蛋白质二级结构预测模型,该模型采用“profile”编码方式和氨基酸间的“距离”为激励输入信息,对蛋白质二级结构进行了预测。论文对从36个蛋白质提取的共4000个氨基酸的进行了预测研究和分析。结果表明:本文的多神经网络优于Zhu等人提出的多神经预测模型[19],它把蛋白质二级结构预测的平均精度从66.1502%[19]提高到83.8903%。