多性状遗传数据的基因关联检验

论文部分内容阅读

随着基因测序技术的高速发展，人们能够从分子水平来探索复杂疾病的成因。大多复杂疾病都是由基因决定的，因此可通过疾病与基因位点之间的的关联进行精准诊断。研究发现除常见变异外，一些罕见变异也解释了人类疾病表型方差的一部分。因罕见变异的重要性，需提出统计方法来检验罕见变异与疾病之间的关联，且在人类基因组中越来越多的罕见变异被发现，这也为罕见变异的研究提供了可能性。复杂疾病的性状通常需记录成多种表现形式:如表型呈连续性分布的数量性状，间断分布的二分类及有序性状等，且多性状的遗传基础大都表现为与多个变异位点之间的关系，因此对复杂疾病的探究就不能只看单一性状与多位点之间的关联，而需同时考虑多个性状的联合信息。家庭成员之间因有更多机会共享相同的因果变异，故基因异质性相对较小，基于家系设计的罕见变异与多性状之间的关联检验将会是一个很好的策略。　　本文在常见疾病罕见变异的假设下，利用非参数广义KendallsΤ的方法构造了新的统计量U，并进一步给出了渐近分布W。用新的统计方法研究了多性状与多个罕见变异位点之间的关联性，给多性状遗传数据的基因关联检验提供了一种新的方法，为疾病基因定位问题的研究拓宽了新的思路。通过与已有成熟经典方法的比较，从而得出本文提出方法的可行性和有效性。阐述了基于个体的CAST方法、SUM方法、SKAT方法、SKAT-O方法以及NM-IRV方法，并重点阐述了本文提出的基于核心家庭三人组数据的NM-RV-FAM方法。通过模拟数据和真实COL6A3基因数据的应用，我们发现这6种方法的第一类错误率都落在置信区间内，具有适用性与可执行性。从功效上看，NM-RV-FAM方法具有较高的功效，尤其是当风险因素较高时，并且两个有序性状和两个混合性状时高于两个两值性状的功效。可见，本文中我们提出的方法在检验多性状遗传数据的基因关联检验时是稳健高效、可信赖的。

其他学术论文