论文部分内容阅读
生物信息学是数学、计算机和生命科学的交叉学科,旨在利用数学和计算机科学的理论与方法解决生命科学中的问题,探索生命的奥秘。随着第二代测序技术的不断发展,产生了海量生物数据,为挖掘不同生物分子的功能模式,分析其生物功能提供了可靠的数据基础。表观遗传学是研究基因表达发生了可遗传的改变,而DNA序列不发生改变的一门生物学分支,是功能基因组学研究的重要领域。表观遗传机制主要包括DNA甲基化、非编码RNA和组蛋白修饰,在细胞发育、分化和疾病(包括癌症)发生中发挥非常重要的功能。因此,挖掘并解析表观遗传数据中存在的功能模式对理解细胞发育过程,认识疾病发生机理,促进疾病诊断治疗具有非常积极的意义。本文基于当前已有的表观遗传数据,挖掘并分析了DNA甲基化及长非编码RNA(long noncoding RNA,lncRNA)在不同细胞和样本中的功能模式,包括多细胞系中共有的和特异的DNA甲基化模式挖掘与功能分析,癌症中共有的和特异的DNA甲基化模式挖掘及功能分析,lncRNA在复杂疾病中的模式挖掘与分析,主要研究工作和创新如下。1.定义了细胞系中共有和特异的DNA甲基化模式,给出了模式挖掘方法,分析了其在细胞发育和组织形成中发挥的功能。基于ENCODE中54个细胞系的DNA甲基化测序数据,定义了局部聚集的CpG位点(local cluster of CpG sites,LCCS),设计了全基因组LCCS检测算法。基于LCCS构建了共甲基化网络,挖掘了7个具有不同生物功能的共甲基化模块,反映了细胞系中共有的DNA甲基化功能模式。进而,分别定义并挖掘了细胞系和细胞家族特异的DNA甲基化模式。针对细胞系特异的DNA甲基化模式,实验分析表明该模式与细胞系特异的染色质状态和功能显著相关,并且能够调控细胞系特异的基因表达,对细胞发育产生重要影响。针对细胞家族特异的DNA甲基化模式,富集分析表明该模式显著富集在基因体和非CpG岛区域,并且通过影响细胞家族功能特异相关的转录因子绑定发挥细胞家族特异的功能。2.定义了癌症共有和特异的DNA甲基化模式,给出了模式挖掘方法,分析了其在癌症发生中的功能,发现了一个潜在的癌症治疗靶标。基于癌症基因组图谱(The Cancer Genome Atlas,TCGA)中15种癌症的DNA甲基化数据,挖掘了不同癌症中的差异甲基化位点(differentially methylated CpG site,DMC),定义了泛癌症差异甲基化位点(pan-cancer DMC,PDMC)和癌症类型特异的差异甲基化位点(cancer-specific DMC,csDMC)。其次,挖掘了5450个高甲基化和4433个低甲基化PDMC,发现了一个泛癌症高甲基化增强子区域在多个癌症中负调控肿瘤抑制基因BVES和PRDM1的表达,可作潜在的癌症治疗靶标。对PDMC进行了分析,包括:(1)研究了PDMC富集的转录因子绑定模体,挖掘了12个与癌症显著相关的转录因子类别;(2)分析了PDMC与基因表达的关系,挖掘了8组具有泛癌症DNA甲基化-基因表达关系的基因,其显著富集在癌症相关的生物通路上;(3)生存分析发现了55个高甲基化和7个低甲基化PDMC与癌症病人生存时间显著相关,可作为特征将病人分成高风险和低风险两类。最后,挖掘了csDMC,并分析了其功能,发现csDMC显著富集在已知的癌症基因,细胞类型特异的低甲基化标志及超级增强子上,说明csDMC与特异癌症的功能密切相关。3.提出了一种基于网络模型的lncRNA致病模式挖掘方法,预测潜在lncRNA与疾病关系。基于已知的lncRNA与疾病关联关系数据,构建了lncRNA与疾病二部网络,并导出与lncRNA相关的疾病网络和与疾病相关的lncRNA网络。网络的拓扑特征分析表明所构建的网络具有生物意义。通过聚类分析发现,相同类型的疾病更易于聚在同一个类中,表明相似的疾病与相同的lncRNA相关。此外,构建了编码-非编码基因-疾病二部网络,提出基于此二部网络预测潜在lncRNA与疾病关联关系的算法。留一交叉验证表明算法能够准确预测潜在的lncRNA与疾病的关系。最后,预测了768条潜在的lncRNA与疾病关联关系,以阿尔摩兹海默症、胰腺癌和胃癌作为案例分析进一步证明了预测结果的准确性,表明预测的结果对挖掘新的导致疾病发生的lncRNA具有重要的参考意义。