基于BWT的DNA从头测序重叠群生成算法

被引量 : 0次 | 上传用户:tzjgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着遗传学研究的深入,特别是人类基因组计划完成之后,人们认识到取得各个物种的完整基因组序列对于生命本质的探索有着非常重要的作用。如今新一代DNA测序技术已经发展成熟并被广泛的使用,其前所未有的测序速度逐渐的促进了基于序列研究的基因组学的研究,同时也增加了对生物信息学算法的需求。新一代测序技术与传统测序技术相比有速度快、成本低和准确度高的优点,但是其产生的序列片段相对较短。由于传统测序技术开发的序列拼接算法已不适用于新一代测序技术,开发针对新一代测序技术的拼接软件已成为生物信息学领域里一个热门的课题。为此提出一种基于BWT的从头测序的重叠群生成算法,该算法利用BWT的搜索功能找到read之间的最优重叠从而实现序列拼接的目的。首先通过分析实验数据,总结出read数据的特点。然后对序列拼接问题进行分析和建模并给出解决方案。接着详细介绍了整个BWT索引的建立过程,讲述了BWT的原理和作用,以及BTW索引的数据结构和使用方法。对DNA序列拼接过程中需要用到的BWT的向前匹配算法进行了描述,设计了向后匹配算法,并分析了这些算法的时间和空间性能。然后就整个contig的生成过程进行了介绍。首先给出contig生成算法的整体流程,接下来就基于BWT的contig的最佳重叠查找算法进行了具体叙述。然后讲述了contig的延伸算法,主要分正向延伸和反向延伸。并针对之前生成的contig集合里的重复问题提出了contig的修剪算法。最后,评价了算法输出的效果,并与EULER-SR算法进行对比。可以看出我们的序列拼接算法所产生的contig的长度较短,数量较多,仍然有很大的改进空间。但是时间和空间上有很大改善,这对于人类这种大型基因组的拼接有很大的实用意义。
其他文献
碳纤维增强树脂基复合材料(CFRP)是近些年来被广泛应用于航空航天、船舶制造以及其他行业的一种先进材料。轻质高强、耐高温、耐腐蚀等优越的性能特点使得它备受人们的亲睐。
对陕西凤县铅硐山铅锌矿区4个不同程度铅锌污染样地植物根系的丛枝菌根真菌(AMF)和深色有隔内生真菌(DSE)进行了资源和分布调查。结果表明:(1)无铅锌污染的矿山上调查的15种
学习动机是影响外语学习最具能动性的因素之一。本文阐述了学习动机的定义、分类及Dornyei的外语学习动机理论,并根据Dornyei的外语学习动机理论提出了如何激发学习动机的建
全液晶仪表采用TFT-LCD屏代替了传统的机械结构,解决了指针式仪表内容单一,可扩展性差的问题,逐渐开始在高端车型上得到应用。目前国内全液晶仪表的开发多处于实验阶段,采用通用
马来西亚:通常去他人家里应先脱鞋,并摘掉太阳镜与称呼、问候;男人间可握手,与女性则应审慎;会晤最好提前安排;用手和匙吃饭,穆斯林不吃猪肉,在宴会上不要用左手碰食品,马来
纤维增强复合材料层合板由于其优异的力学性能已成为现代飞机工业中最重要的结构材料之一。但是在其制造过程中,常由于诸多不确定因素,使结构发生分层损伤,降低结构件承载能力及
传统民居作为一种独特的建筑类型,并不是孤立存在的,而是其所在的当地独特自然和社会环境共同作用和影响下产生的建筑物。独特的自然气候特征、多样的民族风俗和社会文化传统赋
目的:评价耳内镜下外伤性鼓膜穿孔自身耳垂脂肪团填塞修补的疗效。方法:28例外伤性鼓膜穿孔患者,予耳内镜下自身耳垂脂肪团填塞修补治疗,并进行2个月到1年的随访。结果:统计
推销有着悠久的历史,并随着时代的变迁和经济发展,不断赋予新的内涵,今天它仍然年轻而充满活力。传统推销与现代推销是以20世纪中期为界,现代推销是在传统推销的基础之上建立
从农田土壤中分离得到1株对多种植物病原真菌有拮抗作用的菌株Loq18,经生理生化及分子鉴定确定为一株枯草芽孢杆菌,其无菌发酵液经硫酸铵沉淀得抗菌粗蛋白。为明确此抗菌粗蛋