论文部分内容阅读
蛋白质是生命活动的重要承担者,它的生物功能和属性是由蛋白质的结构决定的,因而蛋白质结构预测对理解蛋白质结构与功能的关系和生物制药等领域有重要的意义。蛋白质二级结构预测是蛋白质结构预测的重要组成部分,起着承上启下的作用,是蛋白质结构预测关键的步骤。
然而传统蛋白质结构预测方法存在着预测精度低,依赖服务器,预算开销过大,单用一种方法缺乏与其它方法优势互补等问题,严重制约了生物信息学的发展。
机器学习是一种比较好的蛋白质二级结构预测方法,本文利用基于序列比对搜索算法的神经网络预测模型。首先,由于数据库里蛋白质数量巨大,本文采用了时间复杂度较小的Ukkonen算法作为搜索蛋白质同源信息的基础。在建立神经网络模型进行预测阶段,鉴于神经网络的收敛速度慢,容易陷入局部极小值的问题,本文用粒子群和模拟退火方法对神经网络进行优化,然后利用同源信息对蛋白质进行结构预测。
在实验中,对两个常用测试数据集进行测试,与常用的预测方法进行比较,取得了较好预测精度。并且基于预测模型的程序独立,不依赖任何服务器,简单易用,可以离线操作,不需要大量资金的开销,对计算机系统的要求不高。
虽然本文的方法取得了较好的预测结果,但面对小量的测试数据,因为找不到较好的同源信息,部分预测精度较差。最后本文提出了解决此问题的思路,综合使用多种预测方法和采用集成的方式进行预测。