论文部分内容阅读
目的:通过对转移性结直肠癌使用FOLFOX方案治疗患者的基因芯片分析,探讨并建立构建预测转移性结直肠癌一线FOLFOX化疗疗效的人工神经网络模型。方法:从GEO数据库下载GSE104645数据集,构建表达矩阵,对我科既往芯片数据(GSE69657)进行分析,构建表达矩阵。运用R 3.5.1软件Combat包对两套矩阵的表达值进行批间差(batch effect)校正。据FOLFOX方案疗效分为两组:敏感组(包括CR和PR)和耐药组(包括SD和PD)。将GSE104645数据集设为训练集,运用GEO2R平台对两组间的基因表达进行差异分析,取P<0.05,log2FC绝对值>0.33为阈值,筛选FOLFOX方案的耐药和敏感基因,采用STRING(functional protein association networks)在线工具进行差异基因的GO功能富集分析,以探索耐药相关基因所参与的生物学过程。运用IBM SPSS 22对GSE104645数据集进行FOLFOX方案疗效的人工神经网络模型(ANN)构建,随机将训练集按照7:3分为训练样本和测试样本。采用多层感知器(MLP)方法,设置2个隐藏层。待模型训练稳定后,导出xml格式模型(命名为FOLFOXpredict.xml)进行后续测试集回代验证。模型构建完毕后,对模型的输出端预测值,联合FOLFOX方案疗效(敏感或耐药),绘制受试者工作特征曲线(receiver operating characteristic curve,ROC曲线),对模型的预测精度进行内部验证。将我科芯片数据集(GSE69657)设置为测试集,在IBM SPSS 22软件中加载构建好的GSE69657表达矩阵和临床疗效参数,并运用FOLFOXpredict模型对测试集进行回代验证,通过预测结局,运用ROC曲线对测试结果和预测能力进行评价。结果:1对训练集(GSE104645)中的FOLFOX敏感组和FOLFOX耐药组的芯片数据进行比较,采用GEO2R进行差异基因的筛选,共筛选出2076个差异基因,其中822个基因在耐药组上调,1254个基因下调,下调基因为敏感基因。2对差异基因所参与的生物学过程进行GO分析,发现主要富集在物质代谢的调控过程中。包括细胞生物合成等初级代谢过程,RNA、氮化合物、大分子生物合成过程等,进一步提示物质代谢调节过程在FOLFOX的耐药中起的重要作用。3训练集中37例(68.5%)患者为训练样本,17例(31.5%)患者为测试样本。一共有39个基因纳入最终模型构建。这是一个包含2个隐藏层的神经网络模型,其在训练集中预测训练样本和测试样本的准确度分别为75.7%和76.5%,ROC曲线下面积为0.875。4将我科芯片数据集(GSE69657)设置为测试集,将构建好并进行批次效应校正后的表达谱矩阵导入IBM SPSS 22软件中。联合加载FOLFOX.mxl进行预测,并根据真实结局(敏感或耐药)进行监督。结果提示,该模型预测效能较好,ROC曲线下面积为0.778%。结论:本研究成功构建了基于芯片数据的转移性结直肠癌一线FOLFOX方案疗效的人工神经网络预测模型,并进行了独立的外部验证。模型稳定性好,预测效能强。此外,本研究结果提示与奥沙利铂耐药相关的基因功能主要富集在物质代谢的调控过程中。包括细胞生物合成等初级代谢过程,RNA、氮化合物、大分子生物合成过程等,进一步提示物质代谢调节过程在FOLFOX的耐药中起的重要作用。