高通量测序数据的Indel识别方法研究

来源 :哈尔滨师范大学 | 被引量 : 0次 | 上传用户:huoshengxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划的早期启动并非将主要资金用于测序,而是积极开发测序手段与工具,通过极大地提高测序速度,降低测序成本而完成了完整测序计划。但其对于数据的生产仍然是相对有限的,千人基因组计划使得学科发展重新进入了数据处理工具不足的环境之中。基于此,适应于高通量测序技术(High-throughput sequencing,HTS)所提供的大量数据的各类平台与工具也得到了快速发展。Indel(Insertion/Deletion)是高通量测序数据处理之中较窄的分支,却是基因结构变异之中规模较大的一个类型,在变异类型之中规模仅次于SNP(single nucleotide polymorphism,单核苷酸多态性),而成为最为常见的结构变异并广泛分布于不同结构之中,以下是本文的主要研究内容。首先,本文将人类1号染色体作为参考数据,使用几种常见的结构变异识别算法对Indel进行识别,通过实验验证,比较分析了这几种识别算法的优缺点,结果表现出了较高水平的假阳性率和假阴性率或较低水平的recall和precision,识别结果不精确,进而提出了一种新的算法来提高Indel的识别精度。然后,本文设计提出了一个基于SR的单端异常序列生成算法(Single-ended Abnormal Sequence Generation Algorithm Based on SR,SESR算法),用来筛选异常数据,获得单端异常序列,与其他算法相比,该算法表现出的recall和precision更高,假阳性和假阴性更低。本文的主要创新点是首先设定200bp为一个检测窗口,采用SR(Split read,基于read分割匹配)的思想筛选出read断裂区域,然后在此区域内筛选出单端异常测序片段,分析断裂区域内单端异常测序片段的大小、位置和方向,最后输出异常序列识别结果。最后,本文对Indel识别算法检验所使用的实验数据构造方法和评价体系中的罚分方式进行了设计,并将表皮生长因子受体基因作为数据来源,运用此罚分指标将SESR算法与Pindel所使用的pattern growth算法做了打分对比,结果本文所完成的算法设计工作提供了更好的Indel识别能力。人类基因组在变异方面的研究在基因组进化、医学进步、疾病治疗、人类健康等方面有着重要意义,而小型的Indel许多都发生在人类基因组中关键的位置,因此,一个好的Indel检测与研究方法是至关重要的。
其他文献
设G是有限群.子群H称为G的CAP*-子群,如果H覆盖或者避开G的每个非-Frattini主因子.子群H称为G的几乎CAP*-子群,如果存在G的次正规子群K使得HK=G,且H∩K是G的CAP*-子群.设p是
AP2/ERF是一类庞大的转录因子家族,SHN2(SHINE2)是AP2/EREBP亚家族中的一员,与植物角质及蜡质的形成密切相关,同时在植物次生生长的调控过程中发挥重要作用,是直接或间接调控
近年来,燃油中的含硫化合物燃烧产生的SOx导致酸雨、光化学烟雾等污染破坏生态环境,降低燃油中含硫化合物的含量成为石油化工的研究热点。随着世界各国对含硫标准的严苛,传统
无底柱分段崩落法突出的特点就是在松散覆盖岩层下进行崩矿、落矿和出矿。松散覆盖岩层由粒度不同的岩块组成,随着开采深度增加和放矿的不断进行,覆盖岩层会出现粒度自下而上
管理层业绩预告是重要的业绩信息来源,因为它为投资者提供了关于公司未来业绩的相关信息、降低了市场信息不对称程度,进而影响投资者对公司股票价格的判断以及投资者的投资交
亲子阅读是非常重要的家庭亲子活动之一,已有研究证明亲子阅读能够促进儿童的语言、阅读、情感与社会性等多方面能力的发展。轻松、愉快的亲子阅读不仅能促进儿童的能力发展,还有利于儿童对阅读活动形成一个良好的印象,提高儿童的阅读兴趣。而阅读兴趣是一个人的终身伴侣,是培养儿童阅读能力的基础。但是,以往关于亲子阅读的研究较多集中于亲子阅读频率和亲子阅读中的语言互动对儿童的影响,很少有研究考虑到亲子阅读的行为互动
谷氨酰胺合成酶(Glutamine synthetase,GS1a)是氮代谢循环中的关键酶,在促进植株的生长,提高氮素利用率,抗逆境胁迫等方面具有重要作用。为探究GS1a在小黑杨次生生长方面的作
中国特色社会主义政党制度根源于72年前的"五一口号",是从中国土壤中生长出来的新型政党制度,是中国对人类政治文明的一大贡献。回顾这72载的风雨同舟,我们更加深刻地体会到
中尺度对流系统(MCSs)是影响热带能量循环和水循环的重要因子。然而由于我们认识的不足,当前气候模式云方案还不能合理地考虑MCSs对热带大气非绝热加热及高空冰云生成的影响
金属颗粒可控合成的最新研究进展使贵金属纳米颗粒的尺寸、形状和组成成分得以精确控制,使其从原子尺度特性系统研究催化剂与活性和选择性之间的构效关系成为可能。然而,具有