论文部分内容阅读
全基因组关联分析(genome-wide association studies,GWAS)与连锁分析在动植物和人类数量性状遗传剖析和基因发掘中广泛应用。因此,研究GWAS方法学中的科学问题具有理论与实践意义。虽然已有很多基于混合模型的GWAS方法,但是这些方法及其软件包使用的基因型aa、Aa和AA的编码值有所不同,主要有(-1,0,1)、(0,0.5,1)、(0,1,2)、(-2p,1-2p,2-2p)、(0,1,0)和(-1,1,-1)六种。利用不同基因型编码值的QTN(quantitative trait nucleotide)检测结果是否有差异,目前未见报道。为弄清在具有异质基因型自然群体中上述不同编码值对关联分析的影响这一问题,本文首先模拟了自然群体基因型与数量性状表型数据集,将标记基因型数据集转换为六种不同基因型编码值数据集,通过mrMLM算法检测数量性状表型观测值与标记基因型编码值之间的关联,以研究不同标记基因型编码值对关联分析的影响。然后,将上述自然群体变为理想F2群体,用mrMLM、FASTmrMLM、FASTmr EMMA、p LARm EB、p KWm EB和ISIS EM-BLASSO方法进一步研究标记基因型编码值对QTL(quantitative trait locus)定位的影响。最后,利用品种资源群体和F2群体真实数据集,验证不同标记基因型编码值对关联分析的影响。其主要结果如下:1、在模拟的自然群体中,设置了第1~3个加性QTN、第4~6个显性QTN和第7~10个加性-显性QTN,将标记基因型数据集分别转换成前四种标记基因型编码值后,利用mrMLM算法分析数量性状表型观测值与标记基因型编码值的关联。结果表明:上述10个QTN的检测功效分别为39.8~41.5、98.9~99.3、99.2~99.4、0.0、0.0、0.0、98.8~99.3、95.6~96.3、27.5~29.7和3.6~4.0(%)。这表明这四种编码值不能检测第4~6个显性QTN,加性和加性-显性QTN的检测功效随加性效应贡献率的增加而增大。若将标记基因型数据集分别转换为后两种标记基因型编码值,利用mrMLM算法分析数量性状表型观测值与标记基因型编码值之间的关联。结果表明:上述10个QTN的检测功效分别为0.0、0.0、0.0、33.2~34.3、94.3~94.6、96.2、2.0~2.4、1.7~1.9、72.2~73.9和100.0(%)。这表明这两种编码值不能检测第1~3个加性QTN,显性和加性-显性QTN的检测功效随显性效应贡献率的增加而增大。QTN参数估计值的变异系数会随着QTN贡献率的增大而变小。虽然不同编码值QTN效应估计值间的关系符合数量遗传学规律,但是与真值有些偏差。这六种编码的假阳性率和假阴性率分别为6.029~6.950(?)和53.05~59.87(%),控制较好。2、在F2群体中,用mrMLM算法检测数量性状表型观测值与前四种标记基因型编码值之间的关联,上述10个QTL的检测功效分别为19.0、57.5~58.0、83.0~83.5、0.0、0.0、0.0、85.0~85.5、83.5~84.5、38.0~38.5和5.0(%)。用mrMLM算法检测数量性状表型观测值与后两种标记基因型编码值之间的关联,上述10个QTL的检测功效分别为0.0、0.0、0.0、17.5、66.5~67.0、88.0~89.0、1.5、5.5、76.5和84.5~85.0(%)。若用FASTmrMLM、FASTmr EMMA、p LARm EB、p KWm EB和ISIS EM-BLASSO方法,其规律与mrMLM的一致。QTL参数估计值的均方误差会随着QTL贡献率的增大而变小。QTL效应估计值的无偏性较好,优于自然群体。这六种编码的假阳性率和假阴性率分别为3.198~4.745(?)和62.70~66.00(%),控制相对较好。3、用mrMLM方法还检测了Zhou等(2012)的278个水稻永久F2个体千粒重与1619个bin标记间的关联以及Zhao等(2011)的374个亚洲稻开花时间与36901个SNP标记的关联。结果表明:在前四种标记基因型编码值下,检测到了千粒重纯加性基因GS3和GW5/qsw5以及开花时间在第7条染色体上23.2~23.3Mb区域上的近似纯加性位点id7004091,未检测到开花时间在第8染色体24.1~24.2Mb区域上的纯显性位点wd8004070,但是在后两种标记基因型编码值下,没有检测到千粒重纯加性基因GS3和GW5/qsw5以及开花时间近似纯加性位点id7004091,却检测到了开花时间在第8染色体区域上的纯显性位点wd8004070。上述结果与模拟研究结果一致,说明不同标记基因型编码值对关联分析是有影响的。综上所述,在前四种标记基因型编码值数据集中,不能检测只具有显性效应的位点;在后两种编码值数据集中,不能检测只具有加性效应的位点。