论文部分内容阅读
背景与目的:胰腺癌是一种常见的消化道恶性肿瘤,其主要病理类型为胰腺腺癌(PAAD),因早期诊断困难且缺乏有效的治疗措施,故预后极差.因此,寻找PAAD的诊治新靶标具有重要意义.本研究通过生物信息学方法筛选与PAAD诊断和预后相关的关键基因,构建分类PAAD样本和正常样本的支持向量机(SVM)模型,以期为PAAD的诊治及机制研究提供依据.方法:从基因表达数据库(GEO)中下载3个芯片数据(GSE28735、GSE62165、GSE62452),应用R语言的Limma包筛选出PAAD组织和正常组织间的差异表达基因(DEGs).利用STRING数据库对DEGs进行GO和KEGG通路富集分析.再以STRING数据库构建DEGs的蛋白互作网络(PPI),利用Cytoscape软件进行可视化编辑,并通过MCODE插件进行关键子网络分析.使用R语言的survival包筛选PPI和关键子网络中与预后相关的关键节点,将其上传至Metascape进行功能富集分析.利用R语言caret包中递归式特征消除(RFE)算法筛选关键节点中的最优特征基因,在GEPIA数据库中验证最优特征基因的表达差异,随后通过R语言的e1071包构建最优特征基因的SVM模型,并在3个芯片数据中借助R语言的pROC包对该模型进行验证.在TCGA数据库中,用R语言的survminer包筛选出最优特征基因中与PAAD预后相关的基因作为关键基因.结果:共筛选出257个DEGs,包括168个上调基因和89个下调基因.GO分析结果表明DEGs主要参与细胞外基质的组成、细胞黏附、丝氨酸肽酶活性等生物学过程.KEGG分析显示,DEGs主要富集于蛋白质的消化和吸收、胰腺的分泌、黏着斑、PI3K-Akt信号通路.生存分析筛选出14个关键节点同时在GSE28735和GSE62452中与预后相关(均P<0.05),这些基因在肿瘤侵犯和肿瘤发生中发挥一定作用.RFE筛选出8个最优特征基因:LAMA3、FN1、ITGA3、MET、PLAU、CENPF、MMP14、OAS2;GEPIA数据库验证发现这8个最优特征基因在PAAD组织中明显上调(均P<0.01);这些基因构建的SVM模型在3个芯片数据中ROC曲线的AUC依次为0.898、1.000、0.905.TCGA数据库验证发现LAMA3、ITGA3、MET、PLAU、CENPF及OAS2的上调与PAAD预后不良有关(均P<0.05).结论:关键基因LAMA3、ITGA3、MET、PLAU、CENPF及OAS2可能成为PAAD诊治的新靶点;基于8个最优特征基因构建的SVM模型可有效诊断PAAD.