论文部分内容阅读
近年来乳腺癌的发病率迅速增加,已位居女性恶性肿瘤首位。乳腺癌作为一种基因疾病,挖掘生物数据的有效信息是研究该疾病生物标志物的重要途经。在肿瘤患者复杂的生物分子网络中,伴随着众多的基因突变和基因表达失调。因此,对肿瘤生物信息的有效提取,可以高效地研究生物分子的调控和代谢机制。本课题通过筛选生物标志物并研究其在乳腺癌中的生物学功能,为探究该疾病发生及预后提供了新思路。本文的主要工作内容有以下三个方面:(1)基因突变可以导致原癌基因或抑癌基因发生表达异常,其中单个核苷酸变异(Single nucleotide variation,SNV)与肿瘤疾病的发病机制密切相关。首先利用社会网络算法获得关键突变基因-PIK3CA、TP53、CDH1和GATA3,并用电子-离子相互作用赝势(Electron-ion interaction pseudopotential,EIIP)分析SNV规律。同时,根据总体生存率验证关键基因突变与患者预后的关系。结果显示:碱基的EIIP值越低,越易发生SNV;另一方面TP53和PIK3CA突变可以较好的预测乳腺癌患者的预后情况(CI=95%,P<0.05)。(2)乳腺癌作为一种基因疾病,基因异常表达影响患者的预后情况。通过对乳腺癌预后相关的基因进行生物学分析,可以挖掘出这些基因参与的生物学过程。本章通过对乳腺癌蛋白质与蛋白质相互作用(Protein protein interaction,PPI)网络进行拓扑性质分析,获得299个候选基因。然后,利用LASSO算法获得关键基因并建立风险模型,该模型的AUC值为0.905。此外,生物功能富集分析结果显示:该风险模型相关的基因(Risk model related genes,RMRG)参与乳腺肿瘤细胞的增殖、遗传物质和蛋白质的合成等生物过程。因此,这些RMRG可以作为乳腺癌预后的潜在生物标志物。(3)竞争性内源RNA(Competing endogenous RNA,ceRNA)作为生物标志物和潜在的治疗靶点,在探究肿瘤的发病机制中,表现出了巨大的研究价值和临床应用前景。本章对乳腺癌ceRNA网络进行了系统的分析。首先,利用网络的边聚集系数(Edge clustering coefficient,ECC)和皮尔逊相关系数(Pearson correlation coefficient,PCC)计算ceRNA网络节点的权重。然后,采用基于随机森林的逐步特征选择(Stepwise feature selection based on random forest,SFS-RF)方法筛选出一组可作为乳腺癌生物标志物的RNA——LINC00466、CHL1-AS2和LINC00337。结果显示:这些RNA在识别乳腺癌样本中,表现出较好的性能。其中LINC00466和CHL1-AS2表达失调与乳腺癌患者的预后效果密切相关。