转录因子CTCF活性结合位点的预测

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:xiongll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
CCCTC结合因子(CTCF)是广泛存在于真核生物中的多锌脂蛋白,参与了转录、印迹和染色质长程相互作用等多种生物学过程,在不同基因组背景下发挥不同的功能。众所周知,CTCF可以同时充当转录抑制因子和激活因子。另一方面,各种研究发现CTCF是主要的肿瘤抑制基因,破坏特定基因位点的CTCF结合可能会导致癌症相关基因的异常表达,从而增加患乳腺癌等癌症的风险。全基因组的ChIP-seq分析揭示了成千上万个CTCF的结合位点,表明其在基因组中的广泛调节功能。实际上,CTCF的结合受到多种因素的影响,包括DNA序列、其他转录因子的结合、染色质可及性,DNA甲基化和组蛋白修饰等等。ENCODE项目提供了大量的全基因组表观修饰数据,已被证明是用于基因调控研究的宝贵数据资源,我们后续用于分析和预测的数据都来源于ENCODE。首先,利用ENCODE数据库中82个细胞系转录因子CTCF的峰值数据,构建了CTCF活性结合位点(正集:876个位点,称为CABS)和CTCF非活性结合位点(负集:231130个位点,CIBS)数据集。然后,从ENCODE中提取了各种表观遗传信号,包括DNase-seq、RAD21、SMC3、H3K9ac、H3K27me3、H3K9me3、H3K4me3、H3k4me2和H4k20me1。最后,基于转录起始位点邻近表观信号特征,利用支持向量机(SVM,Jackknife验证)和随机森林(RF,5倍交叉验证)预测了GM12878中转录因子CTCF的活性结合位点。结果表明,九个特征的预测准确度分别为93.87%和94.46%,100次平均预测准确度为94.78%和95.40%。与此同时,仅使用DNase-seq、RAD21和SMC3的特征就可以实现与九种特征可比拟的预测准确度,说明染色质可及性DNase-seq数据、RAD21和SMC3的结合信息,对活性CTCF结合位点的预测具有较强的预测能力,组蛋白修饰可提供适度的预测能力。进一步,基于ENCODE构建了乳腺癌MCF-7细胞系特异的CTCF活性结合位点(30859个位点,M-S group)数据集与乳腺正常HMEC细胞系特异的CTCF活性结合位点(13171个位点,H-S group)数据集。根据第一部分的研究结果,利用三种转录因子(CTCF、RAD21、SMC3)的结合模体,DNase-seq以及DNA甲基化信号在CTCF峰400bp区域内的分布信息,对乳腺癌MCF-7细胞系特异的CTCF活性结合位点进行预测,SVM与RF的预测准确度分别是83.09%,84.19%。结果表明,MCF-7细胞系中活性CTCF结合位点的预测水平超过80%,表明结合染色质可及性数据、DNA甲基化对CTCF的结合具有较强的调控作用,同时具有强关联的转录因子RAD21和SMC3对CTCF的结合发挥了一定的影响,这些研究有助于进一步分析和预测DNA与其他转录因子之间的相互作用。
其他文献
实体器官移植(Solid Organ Transplantation,SOT)是治疗多种终末期器官疾病的有效手段,术后排斥及感染等并发症是影响患者术后生存期的主要因素。移植受者术后需要长期服用免
近年来,随着高中教学改革的不断推进,在高中数学教学过程中融入数学文化,以此实现对学生综合素养的提升,已经成为高中数学教育改革的新方向和新思路。文章以学生如何学好数学