论文部分内容阅读
本文对一个改进的欧拉拼装算法进行了研究。在新算法中,测序read被分解成κ-tuple,但是拼装所使用的κ-tuple图由其中的强κ-tuple的构造,因而避免了Pevzner算法中耗时的纠错。为了解决read被分解成κ-tuple而造成的部分连接信息的丢失,新算法中模拟Double-Barrel测序的想法,在read上制造一些关于κ-tuple的mate,即人工伙伴,用以恢复丢失的连接信息。赛莱拉的mate信息通常是应用在已拼装的contig上,而人工伙伴的应用对象则是强κ-tuple图中的极大无歧义路径(MUP),即没有分支顶点的最大路径。简而言之,就是在强κ-tuple图上生成MUP,让后利用人工伙伴将MUP连接起来。这个过程在实现起来是非常简单的,但是却能够解决基因组95﹪以上的区域。对于未解决的不到5﹪的部分,新算法采用渐进的策略:MUP延拓,将它们逐步覆盖。MUP延拓可以简单概括为:从MUP出发,向未解决区域一步步地延伸,首先选取MUP头部或尾部一段序列,通过人工伙伴找到可能和这段序列有overlap关系的read,然后通过一个名为人工芯片的工具对read进行过滤,然后对剩下的read作多重比对以获得延伸序列,对延伸序列不断重复前面的步骤,直到进入其他MUP。通过AM,MUP和MUP延拓,能够快速而又不失准确地对DNA片段的进行拼装。