基于K-spectrum算法的NGS数据快速纠错

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yaya1717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,第二代基因测序技术(NGS)得到了广泛的应用,在全球范围内,各个生物机构和实验室产生的数据量也随之剧增,但是NGS数据有一个比较突出的问题,就是其数据错误率较高,导致数据下游分析的准确性欠佳。目前常用的纠错方法大部分是基于K-spectrum算法,它通过把数据拆分成更小的片段,根据片段出现的频率来区分哪些是错误的,进而使用纠错模块对错误片段进行纠错。现有基于K-spectrum算法的纠错方法由于其局限性,无法满足准确、快速、低成本处理现有大量测序数据的需求,因此需要效率更高、效果更好的纠错方法。本文在介绍K-spectrum算法原理的基础上,对基于此算法的现有纠错工具的局限性进行了分析,找出了各自的问题和原因。Musket工具在纠错过程中采用了多阶段处理方式,由于其使用了基准片段来进行纠错,在一定程度上容易引入新的错误碱基;Blue和Reptile工具都采用了在错误碱基位置的上下文信息来替换错误的序列片段,虽然纠错的效率较高,但准确性不高。为了解决现有工具的问题,我们增加了数据预处理阶段,将Illumina产生的测序数据根据序列数据的质量分数过滤掉低质量序列,减少了数据文件中出现的碱基缺失和字符干扰等问题的出现。然后根据经典的做法,对数据进行k-mer化,将k-mer化后的数据分为可信集合和错误集合。之后构建了改进的De Bruijn图,将纠错问题转化为图的匹配和检索。为了提高纠错的准确性,在程序中引入了A*算法和Needle ma n-Wunsc h分数方法,去解决序列中的错误片段在图上的路径搜索及校正问题。此外为了提高纠错效率,程序中广泛采用了散列技术和并发队列,解决了大型数据集的存储和检索问题。基于以上考虑,本文设计了一种基于K-spectrum的NGS数据快速纠错方法ASEC(A Star of Error Correction),并将ASEC算法在Spark分布式云计算平台上对数据进行分布式处理,提高算法的纠错速度。通过与其他纠错工具的对比实验证明,ASEC算法的纠错表现要优于目前比较流行的几大纠错工具,ASEC算法在不损害纠错准确度的前提下,纠错效率更高。在Spark平台下的运行也展现了纠错算法比较不错的分布式处理能力,纠错运行时间大幅度减少。但由于时间有限,目前采用阶段内固定的覆盖长度,给算法也带来了一定的局限性,同时也给进一步优化提供了空间。
其他文献
分析大型灌区水利工程标准化管理过程中存在的问题,介绍碗窑灌区(峡口片)标准化创建后的管理实践,提出大型灌区水利工程管理中需把握的几个特性,以确保灌区标准化管理长效实
从1976年到1992年,德国徕兹公司与日本美能达公司在单反相机设计领域进行了密切合作,并由此生产了一系列相机,这些相机既有德国式性能可靠的内涵,又有日本式小巧便捷的特点,
针对传统ip-iq法在三相电压不对称时存在的检测误差,提出一种改进型检测方法。该方法在三相电网电压不对称的情况下,通过引入坐标变换和微分变换获得与电网正序电压同步的正
人源性肿瘤组织异种移植(PDTX)模型是通过将患者新鲜的肿瘤组织植入免疫缺陷小鼠,依靠小鼠提供的微环境生长。此模型保留了原代肿瘤的病理生理特性、组织学和表型特征,维持了
为逐步减少农业生产上化肥使用量,在水稻生产上探索用基施旺有机肥替代化肥的可行性,通过该试验以期寻找适合本地的有机肥,为化肥减量增效提供决策依据。研究结果表明,在株高