论文部分内容阅读
全基因组关联研究旨在通过寻找与复杂疾病相关的各种遗传因素,帮助人类全面揭示与人类疾病的发生、发展和治疗相关的遗传基因。目前为止,虽然GWAS中标准的病例.对照分析已经发现了许多与人类乳腺癌、前列腺癌、精神分裂症、糖尿病等复杂疾病有关的遗传基因,但是存在无法检测上位性效应和难以达到全基因组显著性等诸多缺点。因此全基因组关联研究中的SNP集分析方法受到越来越多的关注。本文根据目前SNP集分析方法中存在的缺陷从两个大的方面提出两个高效的SNP集分析方法—加权标签SNP集分析方法和相对次要等位基因频率加权分析方法。 首先为解决SNP集分析方法受SNP集质量困扰的问题,基于SNP集预处理的思想提出了一种有效的加权标签SNP集分析方法,并为该方法设计了一个基于SNP连锁不平衡结构的标签SNP快速选择算法和一个为评价标签SNP集中每个标签SNP地位的加权函数。本文基于PHGDH、HTR2A两个基因和HapMap计划的CEU样本,用HAPGEN2软件产生了大量的仿真数据,通过仿真实验验证,我们加权标签SNP集分析方法与基于原始SNP集的分析方法相比,在功效方面有较大改善,且能够降低较多的基因分型成本。标签SNP集的选择对检验的功效有较大的影响,本文比较了基于四种标签SNP集的检验方法的功效大小,结果表明基于本文提出的标签SNP集的检验功效是这四种情况下最优的。同时我们还通过实验验证了本文设计的标签SNP选择算法与其它标签SNP选择算法相比有较低的时间复杂度。 然后为摆脱针对常见变异和罕见变异没有统一的具有较大功效的关联检验方法的问题,在综合考虑了从病例组、对照组和所有个体三个角度估计次要等位基因频率的基础上提出一种相对次要等位基因频率加权分析方法。通过HAPGEN2产生大量仿真数据进行的实验验证表明,不论在何种假设(SNP集中常见变异导致疾病发生、罕见变异导致疾病发生或两种变异共同导致疾病发生)下,相对次要等位基因频率加权分析方法都具有较大的功效,且都明显优于现有的分别对常见变异和罕见变异分析方法的功效。