一个改进的欧拉拼装算法

来源 :北京大学 | 被引量 : 0次 | 上传用户:zmn100200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对一个改进的欧拉拼装算法进行了研究。在新算法中,测序read被分解成κ-tuple,但是拼装所使用的κ-tuple图由其中的强κ-tuple的构造,因而避免了Pevzner算法中耗时的纠错。为了解决read被分解成κ-tuple而造成的部分连接信息的丢失,新算法中模拟Double-Barrel测序的想法,在read上制造一些关于κ-tuple的mate,即人工伙伴,用以恢复丢失的连接信息。赛莱拉的mate信息通常是应用在已拼装的contig上,而人工伙伴的应用对象则是强κ-tuple图中的极大无歧义路径(MUP),即没有分支顶点的最大路径。简而言之,就是在强κ-tuple图上生成MUP,让后利用人工伙伴将MUP连接起来。这个过程在实现起来是非常简单的,但是却能够解决基因组95﹪以上的区域。对于未解决的不到5﹪的部分,新算法采用渐进的策略:MUP延拓,将它们逐步覆盖。MUP延拓可以简单概括为:从MUP出发,向未解决区域一步步地延伸,首先选取MUP头部或尾部一段序列,通过人工伙伴找到可能和这段序列有overlap关系的read,然后通过一个名为人工芯片的工具对read进行过滤,然后对剩下的read作多重比对以获得延伸序列,对延伸序列不断重复前面的步骤,直到进入其他MUP。通过AM,MUP和MUP延拓,能够快速而又不失准确地对DNA片段的进行拼装。
其他文献
本文主要分为五大部分,第一部分主要是计算并证明了有限状态空间中相对熵指数收敛速度的特征方程,并将这种方法推广到计算一般的σ:=inf{D(f,ψ(f))/Ent(f)}的特征方程;第二部分
对于Zd上的简单随机游动,人们已经有了充分的认识.而在引入了点渗流模型之后,在开簇上的随机游动的常返性就需要重新考虑了.在这里我们只考虑上临界情形.本文中将证明,在点渗流
本文主要利用了迹类和核类来讨论完全0-单半群的同余。论文由五部分组成,由简单到复杂,由特殊到一般,借助同余对这一工具,刻画出完全0-单半群的各种性质,故得出了很多好的结论。
本文分为两个篇章:   第一篇考虑双曲型守恒律方程熵解的正则性。本文证明了当初始数据属于Ck除去一个第一纲子集时,守恒律的解是分片光滑的。值得一提的是从包含关系的含
编者按:上市公司并购重组,作为资本市场优化资源配置的一种有效手段,在我国经济结构调整和产业升级的进程中,正发挥着日益重要的作用。作为上市公司并购重组中的核心环节,并
小学美术教学“透视与构图”是美术学习的基本途径.培养小学生学习“透视与构图”是基础,.如果说把透视比作骨骼,那么构图就是肌肉二者结合,才会构成血肉丰满、栩栩如生的美
本文主要研究非线性椭圆型方程组。全文的内容可以分为三部分。   第一部分、非线性椭圆型方程组已有研究结果综述。在这一部分分别对Dirichlet问题和Neumann问题概述已有
资源是人类在地球上赖以生存的必要保证。作为可再生资源之一的鱼类资源,与人类生存息息相关。随着科技的发展,渔业产量不断增加。但它并不是取之不尽用之不竭的,如果人们不合理
本文对利用基因芯片数据提取表型相关基因进行了探讨。文章指出,基因芯片数据的众多应用中,一类非常普遍而且有意义的应用是利用基因芯片数据研究不同表型的细胞中基因的mRNA水
我们知道,动力学方程在许多领域都用广泛的应用。而在许多有关 Boltzmann方程的动力学模型中,都存在弛豫参数。如果我们要求由此得出的数值格式具有较好的性质,我们会要求松