基于组合优化方法的RNA结构预测

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:jhh760606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA作为一种重要的生物大分子,在生命活动中具有关键性的作用。自2000年以来有关RNA的研究已经有6年被Science杂志列入世界十大科技进展,这充分说明了RNA的研究在当前生物学领域的核心地位。由于RNA的结构决定其功能,而RNA分子由于其本身的特性很难由实验方法测定其结构,于是面对海量的RNA序列,通过计算方法获得RNA的二级和三级结构就成为一项重要的任务。   自从20世纪70年代以来,RNA二级结构预测就一直是计算生物学领域研究的热点问题。基于自由能最小原理来预测RNA二级结构的方法是目前被广泛接受和采用的方法。自1981年Zuker提出第一个自由能最小算法以来,随着自由能模型和参数,以及优化算法的改进,RNA二级结构预测已经有了很大发展。但这个问题至今仍没有得到令人满意的解决,主要存在两个方面的问题:1)在计算方面,算法复杂度高。特别是对于含假结的RNA二级结构预测,计算其最小自由能的问题已被证明是NP难问题,因而限制了算法在长序列RNA上的应用;2)在自由能模型方面,目前普遍使用的最小自由能规则本身也存在缺陷,而且由于RNA二级结构折叠自身的动力学因素的影响,使得真正的RNA结构往往并不是给定自由能模型下全局最优的结构。   本文在分析了RNA二级结构预测目前所存在的问题和难点的基础上,提出了用缩小搜索空间来提高RNA二级结构预测准确度的新思路。在此基础上我们设计和开发了含假结的RNA二级结构预测软件-FlexStem。   FlexStem仍然是基于自由能最小原理,它采用了目前被广泛使用的标准自由能模型和具有较强描述能力的假结模型。和传统的基于最小自由能原理的RNA二级结构预测算法不同的是,FlexStem以一种模拟RNA二级结构形成的方式——茎叠加的方式来预测含假结的RNA二级结构,并通过启发式策略来有效地缩减茎的搜索空间以达到提高预测准确度的目的。这个启发式策略包含两个主要组成部分:其一是极大茎策略。我们采用极大茎来作为RNA二级结构的基本组成单元并在茎叠加过程中通过极大茎融合策略来不断累积茎。这一方式可以有效减少候选茎的数量从而大大减小茎组合空间。其二是在极大茎策略的基础上,我们通过对真实RNA二级结构的实验和分析进一步归纳出了茎叠加规律。基于这一规律,我们在不断累积茎的过程中,每次只需要在当前很小的候选茎范围中进行选择,而且在多数情况下我们只需要选择当前最优茎即可。我们通过极大茎策略和茎叠加规律构造出了一个被大大缩小的茎搜索空间,并且实验还证明了大多数情况下,真实的RNA二级结构就出现在这个局部搜索空间中。基于这些启发式策略我们开发了能够预测含假结的RNA二级结构的软件—FlexStem并在目前通用的数据集上对它进行了全面测试。实验结果证明,FlexStem对于含假结的RNA二级结构的预测性能要明显高于PKNOTS,PknotsRG,HotKnots以及ILM等目前国际上最著名的几种软件。   相比RNA二级结构预测,RNA三级结构预测是一个更为困难的问题,目前国际还没有真正实用的算法或者系统。本文探索性地提出了用Threading方法来预测RNA三级结构的思想、建立了初步的整数规划模型,并对当前RNA三级结构预测面临的主要困难以及可能的解决方法进行了讨论。
其他文献
Ad hoc网络也称无线自组网、多跳网络,是由一系列带有无线收发装置的移动节点组成的临时性自治系统。该网络最大的特点是不依赖于固定的基础设施,无需中央控制管理。由于Ad h
数据挖掘是在海量数据中对有用信息进行抽取或者挖掘的过程。随着数据挖掘技术的快速发展,在商业、金融、医疗等多个领域,它在给人类带来方便讯息的同时,也不可避免的涉及到
今天,科研、政务、商务等诸多应用领域普遍存在业务需求快速多变的特点,要求其信息系统能够按需动态集成,以即时应对需求的变化.随着面向服务计算技术的日渐普及,互联网内已
随着互联网信息的爆炸式增长,以微博为主导的一批在线社交网络蓬勃发展。越来越多的人以群体的形式在微博网络上进行聚集,且规模随着时间推移逐渐壮大。微博群体的诞生一方面有
纵观计算机的发展历史,可以发现计算平台创新的发展趋势是每隔15年左右出现一类新的平台,以降低使用门槛并扩大用户群。为了充分利用新的网络基础设施带来的机遇,个人网格(PG)—
计算机断层成像(即CT)无论是在医学放射诊断方面,还是在工业领域中均有重要而广泛的应用。可以说CT是自发现X射线后又一个里程碑的发明。目前随着对CT技术研究的逐步深入,CT
学位
本论文以中等职业学校教育教学改革为背景,以学生的课程成绩和职业资格鉴定成绩为分析对象,在数据仓库环境的支持下,对适应性教学课程设置下学生的职业能力和综合能力进行了初步
无线传感器网络集成了传感器技术、嵌入式技术和无线通信技术,具有自组织、构建灵活、覆盖广等优点,因此广泛应用于军事领域和民用领域。目标跟踪技术是目前无线传感器网络研
以网络技术和多媒体技术为代表的现代信息技术的发展,给教育领域带来了前所未有的生机与活力。但网络的蓬勃发展为网络教育仅仅是提供了一个物质的基础,要使网络真正的为教育服
序列比对是分子生物学的一个基本而重要的方法,被广泛的运用于同源基因搜索、结构和功能预测以及系统发生分析等方面。它通过比较两条(称为双序列比对)或者多条(称为多序列比
学位