论文部分内容阅读
全基因组关联分析(GWAS)自2005年开始被用来从全基因组范围内鉴定与疾病风险相关的SNP位点,到现在已经找到了成千上万个危险位点,其中与肿瘤风险相关的SNP位点有900个,考虑到连锁不平衡,一共有10673个SNP与960个GWAS报道的标签SNP相连锁,然而这些与疾病相关的SNP位点中,超过90%都位于基因的非编码区,目前尚不清楚这些位于非编码区的SNP的功能,以及它们如何造成个体肿瘤易感性的差异。为了系统性的鉴定肿瘤风险相关的非编码区SNP变异的功能,揭示功能性SNP变异促进肿瘤发生发展的机制,我们利用自转录调控区域测序(STARR-seq)的方法,鉴定了 10673个肿瘤风险相关的SNP所在的DNA片段的活性。根据活性高低,我们发现了 575个SNP位于促进基因表达的调控元件(PRE),758个SNP位于抑制基因表达的调控元件(NRE),并利用双荧光实验验证了 STARR-seq系统筛选的结果。接下来,对每一个SNP片段,我们分别计算了其两种基因型对应的片段的调控活性,通过比较两者的活性差异,鉴定出那些能够导致DNA片段活性改变的SNP变异,并称之为调控型SNP。我们从这1333个具有调控活性的SNP片段中鉴定了 70个调控型SNP。我们通过分析转录因子motif的结合,发现调控型SNP在转录因子结合区域富集并能破坏转录因子结合。然后,我们利用eQTL分析为鉴定得到的调控型SNP寻找靶基因。最后,我们选择了两个SNP进行了机制的研究。一个是乳腺癌风险相关的SNPrs11055880,它位于ATF7IP的增强子调控区域。我们发现其SNP变异能改变增强子的活性,并通过CRISPRi技术验证了rs11055880所在区域对于ATF7IP的调控表达作用。另一个是rs12142375——它与GWAS报道的儿童白血病风险位点rs546784连锁,位于PDE4B的内含子区域,不同的基因型片段对应不同的增强子活性。患者数据显示rs12142375不同基因型的个体的PDE4B的表达水平也不同,其中G等位基因对应较高的增强子活性,调控PDE4B高表达,PDE4B的高表达对应于较高的儿童淋巴白血病的风险,与GWAS报道的危险等位基因一致。本研究通过系统性的鉴定具有调控功能的肿瘤风险相关的SNP,分析SNP的靶基因,并揭示SNP调控靶基因的可能机制,使得我们更加全面的认识到GWAS鉴定出的风险SNP的功能,促进我们今后对肿瘤非编码变异的认识。本研究为今后非编码区变异的功能研究提供了一种新的方法,并且鉴定了大量的具有调控功能的SNP,为其他学者研究非编码区变异提供了数据支持。