基于序列联配的高效可变剪接模式搜索算法和软件

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:q56260916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可变剪接是指从一种前体mRNA(Pre-mRNA)中产生不同mRNA剪接型(异构体)的过程。它对真核生物中蛋白质组多样性具有重要贡献,并且使得蛋白质异构体的表达受到更多调控信号的调节。研究基因的可变剪接对理解真核生物基因调控具有十分重要的意义。文章首先归纳了可变剪接研究中常用的cDNA-基因组联配计算的基本方法,提出了设计高效可变剪接搜索算法的策略,即通过对cDNA数据库的联配搜索,并结合基因的已知剪接信息来预测可能存在的其他剪接模式。以这种策略为指导,本文开发了两种新的可变剪接搜索算法:以BLAST为核心的ASA(Alterntive Splicing Assembler)算法,以及一种高效可变剪接搜索算法——ASDT(Alternative Splicing Discover Tool)。ASA算法采用图论方法对BLAST计算结果进行计算分析来获得剪接模式。ASA在计算方法上采用了分段策略,即先在已知剪切型上定位,而后修补未匹配部分。这种计算策略不仅符合可变剪接搜索算法的目的,也极大地提高了ASA的运算速度。在计算结果可靠性方面,与ASDB数据库比较结果显示,ASA的可靠性达到了现有公开数据库的水平。对ASDT算法的研究则是在继承传统cDNA-基因组联配计算策略的基础上,从最底层联配计算的研究开发为切入点,通过开发多种辅助算法进行的。这些辅助算法包括截断快速散列表与增强后缀数组相结合的完全匹配片断搜索算法,全新的块联配延伸算法,全新的K最长参考路径算法,以及借鉴GMAP的“三明治”算法,结合Zhang等人提出的贪婪算法进行精确联配和调节剪接位点。这些算法使得ASDT的计算速度能够达到或超过现有的cDNA-基因组联配算法。实验显示其计算速
其他文献
在数据仓库系统中,一个仓库数据项的精确的历史沿革,即该数据项从获取、转换、集成到现状这一完整过程的相关描述和信息,称为数据志(Data Lineage)。数据志包含两个部分:起始数据
人类已经进入信息社会,计算机网络技术为信息的获取、传输、处理、利用提供了越来越便捷的手段。由于网络“黑客”与“入侵者”的活动日益频繁,使得计算机网络中的信息变得越来
叛逆者追踪技术是国际上90年代以来才形成的一个交叉研究方向。近几年来,叛逆者追踪技术的研究发展十分迅速,研究队伍迅速壮大,现在已成为信息安全领域的一个热门研究课题。目前
一项最新的研究显示,蛇类可以在缺乏食物的情况下将新陈代谢的频率降低70%之多,这使得它们不仅可以长时间不吃不喝而不死亡,甚至还可以长得更大。美国阿肯色州立大学的生物学研究
计算机辅助设计引起了工业设计行业的变革,也对工业设计教育提出了更高的要求。计算机辅助设计在工业设计的流程数据管理,产品效果表现以及计算机辅助模型制作中发挥了工具化的
试验、建模和计算是工程力学的重要组成部分,也是计算机辅助工程技术的基础。计算机辅助工程技术的进步和发展,使得过去无法处理的大量自然现象可以利用计算机技术来进行高精
图论是一门充满生机的学科。它与理论计算机科学有密切的关系,图论为研究理论计算机科学提供了强有力的数学工具,高速发展的计算机技术又促进了图论学科的发展。图论在以信息