论文部分内容阅读
蛋白质二级结构预测问题,是目前生物信息学领域中最为重要的任务之一。目前已有方法普遍存在预测准确率普遍不高、预测结果的解释性不佳、缺乏坚实的理论基础、实验科学色彩较浓、对领域知识的利用不足、稳定性较差等问题,其离从二级结构推导三级结构的目标,仍然存在很大差距。
而关联分类作为一种数据挖掘方法,具有较强的归纳学习能力,且其取得的结果具有较好的易理解性。作为一种新颖的关联规则数据挖掘模型,基于双库协同机制的KDD*过程模型,将知识发现系统视为认知系统,从认知心理学的角度来考察知识发现过程,重在研究知识发现的认知自主性。通过构造启发型协调器和维护型协调器分别模拟两个特征,实现自主发现知识短缺及知识库的实时维护,并运用双库协同机制建立数据库和知识库的特定对应关系,从一个特定角度揭示知识发现的潜在本质、规律与复杂性,改造知识发现过程。
论文将KDD*模型与Maradbcm算法引入蛋白质二级结构预测问题中,在论文第三章提出了一个基于结构序列的蛋白质二级结构预测算法——SAC,该算法由Maradbcm算法挖掘得到的蛋白质知识库与基于关联分类算法构成。实验说明,SAC算法理论上的预测准确率达到80%,并且预测准确率、处理率、召回率在一定程度下可以保持很高的水准;通过设定可信度阈值的方式,SAC算法的预测准确率可以提高到85%。由于SAC算法有可能有部分样本无法处理,所以论文在第四章中提出一种基于物理化学属性的蛋白质二级结构预测算 AAC,该算法由Maradbcm算法挖掘所得的高精度的Alpha、Beta规则库与D-CBA分类算法组成,实验说明AAC算法针对偏Alpha、Beta数据是有效的,其是SAC算法可靠的补充。在论文的第五章,将SAC、AAC算法融入到杨炳儒教授提出的基于金字塔模型的蛋白质二级结构预测系统中,形成了一个多层递阶、综合集成、逐步求精的高内聚、低耦合、紧密协同的预测方法体系。金字塔模型在国际通用数据集RS126、CB513、ILP上均超过国际已知最高预测准确率,在CASP8蛋白质竞赛数据集上预测准确率明显优于国际上领先水平的服务器与算法。