论文部分内容阅读
实现癌症的预后预测及分子分型对于癌症的治疗至关重要。预后代表着对治疗成功的估计及恢复的可能性,与癌症的分型紧密相关。作为一种复杂的多基因疾病,同样的癌症在不同个体上的表现不同,相同的临床表现也可能需要不同的治疗方案,这种癌症的异质性使得仅依靠有限的临床指标对肿瘤进行评估已经远不能满足实际需要,这也体现出在分子水平上研究癌症的必要性。近年来,高通量测序技术和芯片技术的快速发展,大量样本数据的积累使得人们可以从分子水平上对癌症进行系统的研究。如基于基因表达数据找到能够预测癌症预后的分子标记物。然而,找到的这些特征基因往往不具备稳定的区分能力,泛化能力较差,并且这些基因多数不是致癌基因,而是噪声信号。对于癌症这种多基因表达模式和功能模块不断变化的系统,基于基因模块来研究癌症的预后及分子分型要优于单个基因特征。并且模块并非孤立的存在,它们之间也存在着相互作用关系(cross-talk),但很少有研究注意到这个问题,所以可能会忽略掉一些与癌症相关的重要模块。随着表观遗传学研究的深入,DNA甲基化的异常对癌症的重要性逐渐显现,而且DNA甲基化芯片的基因组覆盖度越来越高,成本越来越低,这促使人们能够在甲基化层面研究癌症的致病机制。本研究在癌症公共数据库The Cancer Genome Atlas(TCGA)中分别收集了数据量丰富的乳腺癌,皮肤黑色素瘤和子宫内膜癌病人样本的DNA甲基化数据,基因表达数据及相应的临床数据(包括生存时长及生存状态)。本文首先比较了这三种癌症的DNA甲基化数据及基因表达数据在预后问题中的稳定性,得出DNA甲基化数据更适合癌症预后研究的结论;之后利用DNA甲基化数据并采用基于秩的方法对三种癌症分别构建了基因共甲基化网络,并对共甲基化网络中的模块进行了识别;然后利用置换检验的方法,找到模块间的互作关系,从而构成模块网络,再基于K-shell的方法找出模块网络中的核心基因模块,并以这些核心基因模块作为特征对癌症的预后及分子分型进行研究。本文最终在乳腺癌中找到2个核心基因模块,在皮肤黑色素瘤中找到4个核心基因模块,在子宫内膜癌中找到了2个核心基因模块,并且这些核心模块能够显著区分病人的预后;之后以这些核心模块作为聚类特征,采用K-means算法对三种癌症进行分子分型,得到的分型结果也与癌症病人的预后显著相关。此外,本研究经过对三种癌症核心模块网络的分析后,分别找到了与这三种癌症预后显著相关的DNA甲基化分子标记物。这些结果都证明了本研究方法在癌症预后和分型中的有效性。总而言之,本研究基于构建的DNA甲基化模块网络找出的核心模块,不仅能够显著区分癌症病人的预后,而且还能作为特征对癌症进行分子分型,这对癌症的临床诊断有重要的应用价值,还有可能揭示潜在的致癌机制。