基于关联分类的蛋白质二级结构预测算法与模型研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:wb_0622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质二级结构预测问题,是目前生物信息学领域中最为重要的任务之一。目前已有方法普遍存在预测准确率普遍不高、预测结果的解释性不佳、缺乏坚实的理论基础、实验科学色彩较浓、对领域知识的利用不足、稳定性较差等问题,其离从二级结构推导三级结构的目标,仍然存在很大差距。   而关联分类作为一种数据挖掘方法,具有较强的归纳学习能力,且其取得的结果具有较好的易理解性。作为一种新颖的关联规则数据挖掘模型,基于双库协同机制的KDD*过程模型,将知识发现系统视为认知系统,从认知心理学的角度来考察知识发现过程,重在研究知识发现的认知自主性。通过构造启发型协调器和维护型协调器分别模拟两个特征,实现自主发现知识短缺及知识库的实时维护,并运用双库协同机制建立数据库和知识库的特定对应关系,从一个特定角度揭示知识发现的潜在本质、规律与复杂性,改造知识发现过程。   论文将KDD*模型与Maradbcm算法引入蛋白质二级结构预测问题中,在论文第三章提出了一个基于结构序列的蛋白质二级结构预测算法——SAC,该算法由Maradbcm算法挖掘得到的蛋白质知识库与基于关联分类算法构成。实验说明,SAC算法理论上的预测准确率达到80%,并且预测准确率、处理率、召回率在一定程度下可以保持很高的水准;通过设定可信度阈值的方式,SAC算法的预测准确率可以提高到85%。由于SAC算法有可能有部分样本无法处理,所以论文在第四章中提出一种基于物理化学属性的蛋白质二级结构预测算 AAC,该算法由Maradbcm算法挖掘所得的高精度的Alpha、Beta规则库与D-CBA分类算法组成,实验说明AAC算法针对偏Alpha、Beta数据是有效的,其是SAC算法可靠的补充。在论文的第五章,将SAC、AAC算法融入到杨炳儒教授提出的基于金字塔模型的蛋白质二级结构预测系统中,形成了一个多层递阶、综合集成、逐步求精的高内聚、低耦合、紧密协同的预测方法体系。金字塔模型在国际通用数据集RS126、CB513、ILP上均超过国际已知最高预测准确率,在CASP8蛋白质竞赛数据集上预测准确率明显优于国际上领先水平的服务器与算法。
其他文献
IMS即IP多媒体子系统,是一种定义在IP技术基础上的网络体系架构,可以提供语音视频等多媒体服务,是为业界公认的未来互联网发展的关键技术架构。运营商采用了多种技术确保IMS
随着计算机网络的迅速发展,网络设备的种类和数量越来越多,网络结构变得越来越复杂。如何更加有效地管理网络设备、保障网络的正常运行,以及如何设计高效、稳定、通用、可扩展的
随着集成电路设计的规模越来越大,设计验证的重要性越来越突出。由于具有良好的可扩展性,模拟验证一直是功能验证的主要手段。然而随着设计复杂性的持续增长,模拟验证的不完备性
信息融合算法是信息融合测试评估体系中重要的评测对象。如何复用信息融合算法,并以此提高算法开发过程中的自动化程度和效率,是信息融合领域中研究的一个重点和难点。   根
在对软件产品依赖度日益增加的今天,软件测试已经成为软件开发过程中极其重要的环节。其中,回归测试作为普遍的保证软件质量的测试方法引起了越来越多的关注,主要原因在于回归测
随着互联网的飞速发展,大量网页内容的重复给人们带来了不便。在过去的十多年中,在线视频量呈指数增长,越来越多的人参与到了video-related活动,用户花在视频采集、编辑、上
随着计算机技术的应用日臻成熟以及信息化管理的程度不断加深,计算机辅助审计已经成为审计工作的必然方向和趋势。教育审计是我国审计监督制度的重要组成部分。近年来,随着高校
人脸识别是计算机视觉和模式识别研究中的热点问题,近年来受到越来越多研究者的重视。同时,作为生物特征识别的关键技术之一,其在公共安全、信息安全、金融等领域具有潜在的应用
随着信息技术的飞速发展,计算机日益渗透到各个领域,人们的工作生活越来越多地依赖于计算机。相应地,计算机的可信性问题也成为研究热点。软件作为计算机的灵魂,控制着计算机的工
学位
生产计划与调度直接关系着企业的产出效率和生产成本,有效的计划与调度算法能最大限度地提高企业的效益。调度问题是组合优化问题,属于NP问题,难以用常规方法求解,近几年各种
学位