论文部分内容阅读
研究背景结直肠癌是全世界最常见的恶性肿瘤之一,严重威胁人类健康。在临床实践中研究者们发现,Ⅱ期结直肠癌患者是一群预后异质性很大的群体。虽然美国国立综合癌症网络、欧洲肿瘤内科学会提出了Ⅱ期结直肠癌患者的预后风险因素,但是有些高风险的Ⅱ期结直肠癌患者手术后可以达到长期存活,而有部分低风险患者手术后发生早期复发或死亡,因此需要寻找更多能够识别高危Ⅱ期结直肠癌患者的预后指标。近年来,很多研究发现,CT、MRI等影像学检查中蕴含着丰富的信息,被广泛用于疾病的诊断及预后预测。本课题组前期研究发现,肿瘤增强比值(tumor enhancement ratio,TER),即测量肿瘤区域在增强CT扫描下的CT值与CT平扫下的CT值的比值,是非转移性结肠癌患者的预后因素。但是,在Ⅱ期结肠癌中TER是否具有预后价值仍有待探索,以及目前尚未有研究对TER与传统Ⅱ期结肠癌患者的高危因素在预测患者预后中的重要性进行比较。除了影像学指标,目前有一些研究探索了肿瘤组织基因表达水平对于结直肠癌患者的预后价值,但是大多数研究样本量较小,并且不同研究之间的结果不甚一致,也很少有专门针对Ⅱ期结直肠癌患者的复发预测模型。21世纪是大数据的时代,目前医学大数据的不断积累对统计学模型也是很大的挑战。随机生存森林模型是基于生存树的集成机器学习模型,适用于生存资料的预后模型建立。随机生存森林模型无需事先假设参数的分布,无需假设变量对于风险函数的影响是线性的,适用于高维度复杂数据的建模。除此之外,随机生存森林模型还可以对变量的重要性进行排序,达到筛选重要性程度较大的变量、缩减变量维度的目的,从而有利于模型在临床实践中的运用。本研究将分为两部分,分别从肿瘤增强比值、肿瘤基因表达水平出发,采用随机生存森林模型,探索Ⅱ期结直肠癌患者的预后因素并建立预后预测模型。1肿瘤增强比值在Ⅱ期结肠癌患者中的预后价值及预后预测模型建立研究方法连续收集本中心2007年至2014年的Ⅱ期结肠癌患者,按照60%、40%的比例随机分成训练集与测试集。根据腹部增强CT计算肿瘤增强比值(tumor enhancement ratio,TER),并收集患者的高危因素(术前肠梗阻或穿孔、病理T4分期、组织学分化ⅡI-IV级、脉管浸润、神经浸润、送检淋巴结数目<12枚)、年龄、肿瘤位置、术前CEA水平以及总生存期随访资料。在训练集中使用不同变量的组合建立随机生存森林模型,输出训练集、测试集中的患者的预后风险分数。计算变量在模型中所有生存树的最大子树的最小深度的平均值(minimal depth,MD),根据MD值评估变量对于模型的重要程度并进行变量筛选、建立简化的预后预测模型。采用时间依赖的受试者工作曲线(time-dependent receiver operating characteristic curve,td ROC)评估模型的预测能力,并计算使Youden指数最大化时的预后风险分数作为阈值。根据预后风险分数的阈值将测试集中的患者分为高风险组和非高风险组患者,采用Kaplan-Meier生存曲线以及log-rank检验判断两组患者的生存期是否具有显著性差异。研究结果本研究共纳入284例Ⅱ期结肠癌患者,其中训练集包含170例患者,测试集包含114例患者。仅将高危因素纳入随机生存森林模型,模型在测试集中5年的td ROC曲线下面积(area under the curve,AUC)为0.502,测试集中模型预测的高风险组患者与非高风险组患者的生存期不存在显著差异(HR=2.42,95%CI:0.68-8.57,p=0.167)。将TER与高危因素一起纳入随机生存森林模型,我们发现TER在大于1.5时,随着TER的增大,患者的死亡风险呈非线性的增长;根据MD值对变量的重要性进行排序,TER在模型中的MD值最小;模型在测试集中5年的td ROC曲线的AUC为0.760,测试集中高风险组和非高风险组患者的生存期已接近边缘显著(HR=2.60,95%CI:0.91-7.45,p=0.076)。将TER、高危因素、年龄、肿瘤位置、术前CEA水平一起纳入随机生存森林模型,模型在测试集中5年的td ROC曲线的AUC为0.735,测试集中高风险组和非高风险组患者的生存期存在显著差异(HR=12.8,95%CI:3.09-53.1,p<0.001)。根据MD值对变量的重要性进行排序,TER、年龄、肿瘤位置、术前CEA水平、脉管浸润、术前肠梗阻或穿孔、病理T4分期这7个变量的MD值小于阈值。根据上述7个变量建立简化的随机生存森林模型,模型在测试集中5年的td ROC曲线的AUC为0.717,测试集中高风险组和非高风险组患者的生存期依然存在显著性差异(HR=5.50,95%CI:1.68-18.1,p=0.005)。研究结论肿瘤增强比值是Ⅱ期结肠癌患者的重要预后预测指标;纳入肿瘤增强比值的随机生存森林模型能够显著地区分高风险组与非高风险组的Ⅱ期结肠癌患者,有助于临床医生对Ⅱ期结肠癌患者术后制定个体化的随访监测以及治疗方案。2 Ⅱ期结直肠癌患者复发相关基因鉴定及复发预测模型建立研究方法检索美国国立生物技术信息中心的基因芯片数据库,获取Ⅱ期结直肠癌患者手术后肿瘤组织样本基因表达谱芯片数据集。采用RMA(robust multiarray average)算法进行数据预处理,获取基因表达矩阵。根据纳入数据集的基因表达矩阵与随访数据,采用R语言程序中的Meta DE函数包进行基因芯片荟萃分析,以错误发现率<0.1作为标准,获取Ⅱ期结直肠癌患者复发相关基因。按照60%、40%的比例将所有样本随机分成训练集和测试集,以基因表达值作为变量,在训练集中建立随机生存森林复发预测模型,并计算测试集中的患者的复发风险分数。根据每个基因在模型中的MD值,评估基因对于模型的重要程度并进行筛选,建立简化的复发预测模型。采用td ROC曲线评估模型的预测能力,并计算使Youden指数最大化时的复发风险分数作为阈值。根据复发风险分数的阈值将测试集中的患者分为高复发风险组和低复发风险组患者,采用Kaplan-Meier生存曲线以及log-rank检验判断两组患者的无复发生存期是否具有显著性差异。研究结果共有6个基因表达谱芯片数据集(GSE14333、GSE17538、GSE33113、GSE39582、GSE24551、GSE92921)符合纳入标准,总共纳入Ⅱ期结直肠癌患者651例,基因芯片荟萃分析共筛选得到479个与Ⅱ期结直肠癌患者复发相关基因。在训练集中以479个基因的表达值作为变量,建立随机生存森林复发预测模型,模型在训练集中5年的td ROC曲线的AUC为0.984。根据479个基因在模型中的MD值进行筛选,共179个基因在模型中的MD值小于阈值。在训练集中以179个基因的表达值作为变量,重新建立经过第一次简化的随机生存森林复发预测模型,模型在训练集中5年的td ROC曲线的AUC为0.988。再次根据179个基因在模型中的MD值进行筛选,共26个基因在经过第一次简化的模型中的MD值小于阈值。在训练集中以26个基因的表达值作为变量,重新建立经过第二次简化的随机生存森林复发预测模型,模型在训练集中5年的td ROC曲线的AUC为0.993,并且这26个基因在模型中的MD值均小于阈值,无法进一步简化。根据纳入26个基因的简化模型,计算测试集中患者的复发风险分数,我们发现高复发风险组的Ⅱ期结直肠癌患者的无复发生存期与低复发风险组的患者具有显著性差异(HR=1.824,95%CI:1.079-3.084,p=0.025)。研究结论采用基因芯片荟萃分析可以鉴定Ⅱ期结直肠患者复发相关基因;基于随机生存森林模型与基因表达谱的复发预测模型能够显著地区分高、低复发风险的Ⅱ期结直肠癌患者。