论文部分内容阅读
人类基因组计划的早期启动并非将主要资金用于测序,而是积极开发测序手段与工具,通过极大地提高测序速度,降低测序成本而完成了完整测序计划。但其对于数据的生产仍然是相对有限的,千人基因组计划使得学科发展重新进入了数据处理工具不足的环境之中。基于此,适应于高通量测序技术(High-throughput sequencing,HTS)所提供的大量数据的各类平台与工具也得到了快速发展。Indel(Insertion/Deletion)是高通量测序数据处理之中较窄的分支,却是基因结构变异之中规模较大的一个类型,在变异类型之中规模仅次于SNP(single nucleotide polymorphism,单核苷酸多态性),而成为最为常见的结构变异并广泛分布于不同结构之中,以下是本文的主要研究内容。首先,本文将人类1号染色体作为参考数据,使用几种常见的结构变异识别算法对Indel进行识别,通过实验验证,比较分析了这几种识别算法的优缺点,结果表现出了较高水平的假阳性率和假阴性率或较低水平的recall和precision,识别结果不精确,进而提出了一种新的算法来提高Indel的识别精度。然后,本文设计提出了一个基于SR的单端异常序列生成算法(Single-ended Abnormal Sequence Generation Algorithm Based on SR,SESR算法),用来筛选异常数据,获得单端异常序列,与其他算法相比,该算法表现出的recall和precision更高,假阳性和假阴性更低。本文的主要创新点是首先设定200bp为一个检测窗口,采用SR(Split read,基于read分割匹配)的思想筛选出read断裂区域,然后在此区域内筛选出单端异常测序片段,分析断裂区域内单端异常测序片段的大小、位置和方向,最后输出异常序列识别结果。最后,本文对Indel识别算法检验所使用的实验数据构造方法和评价体系中的罚分方式进行了设计,并将表皮生长因子受体基因作为数据来源,运用此罚分指标将SESR算法与Pindel所使用的pattern growth算法做了打分对比,结果本文所完成的算法设计工作提供了更好的Indel识别能力。人类基因组在变异方面的研究在基因组进化、医学进步、疾病治疗、人类健康等方面有着重要意义,而小型的Indel许多都发生在人类基因组中关键的位置,因此,一个好的Indel检测与研究方法是至关重要的。