论文部分内容阅读
大量的已知群体等位基因频率的中高频SNP对基因组相关性研究中的候选SNP基因型检测至关重要。凭借其通量大,相对价格低廉的优势,运用新一代测序技术进行群体混合DNA测序为群体基因组学和基因组相关性研究提供了新的前景。在新一代测序技术能够更好地用于群体基因组学和基因组相关性研究之前,对这些新技术的数据特点有一个全面的了解是很有必要的。在这项研究中,我们利用模拟结合实验数据的方法对利用Solexa测序技术对群体SNP的检测和等位基因频率估计的效率进行了研究。研究结果表明,启发式的SNP检测方法对利用Solexa测序技术进行群体中高频率的检测非常可靠。随着测序深度的升高,假阳性SNP的数目,假阴性SNP的数目以及等位基因频率估计的准确度都有所提高。6X测序深度能够使假阳性SNP降到1%,3X能够使假阴性SNP降到10%。严格的质量分数控制和显著性阈值会使假阳性SNP的数目降低但导致假阴性SNP数目增加。质量分数控制和显著性阈值会增加群体等位基因频率估计的变异度,因此,不建议在进行群体等位基因频率估计的时候利用这些参数,尽管它们对SNP检测的准确性很重要。这项研究使我们对利用Solexa技术进行群体SNP的检测和等位基因频率估计的影响因素有了更全面的了解,也为今后利用这项技术进行相关的研究提供的一种新方法。
序列拼接的可视化是新一代数据分析的重要组成部分,它的作用体现在:1发现序列比对和拼接的错误,例如:序列被定位到了旁系同源位点,还有比对错误导致的SNP检测的错误。2拼接软件的调试和校正。拼接软件和SNP检测程序的开发需要经过严格的调试才能保证拼接和SNP检测的正确性,直接将这些错误通过可视化软件展示出来能加快程序调试速度。3数据校正。这通常要求我们将正确的数据和我们初始拼接的数据进行可视化比对,从而发现问题所在。4数据解析和假设产生。拼接的可视化能够使我们直观的对其中的变异进行分析,从而进一步产生科学假设。我们编写了一个序列拼接和多态位点的可视化软件MapView。它支持在个人电脑上查看上百万的短序列拼接和进行遗传多态性分析,但只消耗有限的内存空间。它支持大范围的可视化单序列和配对序列的拼接,支持多线程任务(同时进行序列拼接的查看,SNP和SV检测以及覆盖度的计算)。我们定义了一种新的二进制文件来进行高效的序列储存和磁盘查找,从而大大降低了内存消耗(<50M)。结合这种高效的检索文件,MapView能够很快地(<1s)定位数据在文件中的位置并将其载入内存进行显示。