论文部分内容阅读
背景: 近年来,许多研究表明de novo突变在散发性疾病中起着重要的作用。随着检测技术的不断提高,一些散发性疾病已经被证实与拥有de novo突变的基因有关如Schinzel-Giedion syndrome, Kabuki syndrome, Bohring-Opitz syndrome, ASD和ALS。随着高通量测序技术的飞速发展,无偏倚的WES及WGS已经成为目前全面检测de novo突变最有效的技术手段。因此,基于高通量测序检测de novo突变日益成为散发性疾病研究领域的热点之一。 由于测序低质量和短序列比对错误,仅仅基于过滤的方法从比对结果中直接找de novo突变会产生很多假阳性的位点。另外,de novo突变是生物进化的原材料,正常人在自然状态下也会产生一定数量的de novo突变。研究表明正常人与散发性病人中每一代每一个碱基的de novo突变速率基本在1×10-8左右,每个基因组平均约发生50-100次de novo突变事件。由此可知,在病人中检测到的denovo突变并非都是致病的,如何应用统计学的模型准确、快速地找到与疾病相关的de novo突变是目前所要解决的重要问题。 基于以上迫切需求,本课题决定开发一套基于核心家系的新一代高通量DNA测序数据,准确快速地确定de novo及稀有遗传突变的方法和工具。同时,该工具还能基于检测到的de novo突变结合该突变所在基因的突变速率及相关联的稀有遗传突变信息给出每个de novo突变所在基因为潜在致病基因的概率。 研究目的: 1、建立一个基于核心家系高通量测序数据准确检测de novo和稀有遗传突变并预测致病基因的在线分析平台DNRIA,为相关散发性疾病研究者提供一个方便的分析平台以及工具上的支撑。 2、用开发好的DNRIA分析平台对10 ASD家系的WES数据分析,期望找到与ASD发病相关的致病基因,并以此为例证明DNRIA的实用性。 方法: 1、采用Javascript,PHP和Perl等脚本开发在线分析软件DNRIA。 2、采用过滤结合EM模型的方法预测de novo突变位点。 3、预测的de novo和稀有遗传突变经ANNOVAR注释后选取功能缺失和预测为有害的错义突变位点。TADA基于以上信息进行致病基因的预测。 4、提取收集的10个ASD家系的血液样品DNA用于外显子组测序; 5、测序得到的原始数据去低质量碱基和接头后与参考基因组比对,去PCR重复序列后得到的唯一比对的序列用于GATK检测突变。 6、使用本课题开发的DNRIA软件对GATK的结果进行de novo和稀有遗传突变及致病基因的预测。 结果: 1、基于核心家系高通量测序数据准确检测de novo及稀有遗传突变并进行致病预测的在线分析软件DNRIA已经构建完成。网址:http://122.228.158.106/DNRIA/index.php 2、对于构建好的DNRIA软件,采用了我们以前项目中测序的32ASD家系的全基因组数据进行软件性能的评价。32ASD家系的项目中我们用DDR及ForestDNM的方法找到的85个位于编码区、UTR区和重要非编码RNA的de novo突变,经Sanger验证,其中54个突变正确31个突变错误。DNRIA软件总共找到了56个突变位点其中52个是阳性结果,4个阴性结果,验证率为92.9%、灵敏度为96.3%、特异性为87.1%。32ASD家系的数据经DNRIA预测找到的稀有遗传的突变位点有2351个,包括Homozygous、Compoundheterozygous和Heterozygous。经详细注释后,其中186个注释为有害或功能缺失的突变位点,经Sanger验证182正确,验证率为97.8%。 3、采用本研究开发的DNRIA软件对新测序的10个ASD家系的全外显子组数据进行分析找到并验证成功了14个位于编码区域的de novo突变,包括1个无义突变,6个非同义突变,7个同义突变以;6个位于编码区域的功能缺失或预测为有害的Recurrent heterozygous和Compound heterozygous突变位点;基于以上信息还预测出四个可能与ASD发病相关的基因PAK2(P=9.88E-05),SLC6A5(P=0.002441),DNAH3(P=0.000384),ANK2(P=0.002495)。 结论: DNRIA是一款能准确快速检测来源于核心家系高通量测序产生的denovo及稀有遗传突变并预测致病基因的在线分析平台。我们应用该软件对自己测序的10个ASD家系的全外显子组数据进行分析找到了四个可能的致病基因。随着高通量测序技术的飞速发展,DNRIA软件将会在散发性疾病研究中发挥重要的作用。