论文部分内容阅读
根据2019年1月国家癌症中心发布的最新一期全国癌症统计数据,2015年我国恶性肿瘤发病人数约为392.9万人,死亡人数约为233.8万人。这意味着平均每天有超过1万人被确诊为癌症,每分钟有7.5个人被确诊为癌症。与历史数据相比,这一数据呈持续上升态势。与此同时,近10多年来,恶性肿瘤的发病率每年保持约3.9%的增幅,死亡率每年保持2.5%的增幅;其中,结直肠癌成为危害我国人口健康的恶性肿瘤之一,其余4种分别是:肺癌、肝癌、上消化系统肿瘤和女性乳腺癌。此外,在男性当中,前列腺癌的发病率近年来上升趋势明显,已位居男性发病中的第6位。基因芯片和高通量测序技术的广泛应用,产生了大量的基因表达谱数据和测序数据。与此同时,新一代人工智能技术的出现,能够为分析这些生物大数据提供算法与技术基础,从而预测肿瘤相关标志物和筛选药物靶点。对于这些分析结果,可以通过实验室或临床实验进行验证,而在大数据时代则可以通过多个公开的生物信息数据库进行验证。这种综合分析在揭示癌症的生物学过程研究中扮演了重要的角色。本研究将通过生物信息学方法与工具,通过挖掘GEO(Gene Expression Omnibus)和TCGA(The Cancer Genome Atlas)数据库中的基因表达谱数据、甲基化数据以及相关组学数据,使用R语言编写代码筛选差异表达基因,从而构建这些关键基因的互作网络,最终筛选出影响前列腺癌和结直肠癌的关键基因与抑癌基因。本研究中肿瘤患者的相关数据来自于GEO数据库中的基因表达谱数据(gene expression profiles,GEPs)、Broad GDCA Firehose数据库中的Level 3数据以及TCGA数据库中的临床数据。本研究的开发平台为RStudio 1.453,并安装了Affy、methylumiIlluminaHumanMethylation-450kmanifest、limma、minfi、watermelon、IlluminaHumanMethylation450kanno.ilmn12.hg19、WGCNA、dynamicTreeCut和fastcluster等相关包。之后,对差异表达结果进行PPI(Protein-Protein Interaction)分析,构建差异基因互作网络,并结合图论相关算法筛选关键基因。进一步,通过DAVID在线工具对差异基因进行功能富集分析,并使用KEGG数据库得到重要信号通路。并结合免疫浸润、蛋白组学数据库对这些研究结果进行多组学分析。最后,通过整合多个公开的生物信息数据库,对关键基因、抑癌基因、药物靶点进行验证。在本研究的第一部分,我们对前列腺癌的DNA甲基化表达谱芯片和基因表达谱芯片进行交集分析,从而筛选出关键基因和候选抑癌基因。候选肿瘤抑制基因为:IKZF1、PPM1A、FBP1、SMCHD1、ALPL、CASP5、PYHIN1、DAPK1和CASP8。关键基因为:FGFR1、FGF13和CCND1。在第二部分的研究中,我们使用机器学习算法分析了前列腺癌的基因表达谱芯片,得到了关键基因和药物靶点,这些肿瘤标志物有助于对其分子机制的研究。关键基因为:UBE2C、CCNB1、TOP2A、TPX2、CENPM、KIAA0101、F5、APOE、NPY和TRIM36。文章中的第三部分,我们使用肿瘤的动态网络标志物(dynamic network biomarker,DNB)算法,得到结直肠癌肿瘤四个分子的关键基因MYC。结果表明,MYC可以作为结直肠癌诊断和治疗动态标志物,抑癌基因是ZBTB16、MAL、LIFR和SLIT2。