论文部分内容阅读
●第一部分 肾细胞癌诊断的新思路和新指标探索●第一章 肿瘤最大直径和和最小直径的比值在术前诊断肾癌病理类型中的临床意义目的:多项影像学研究探讨和描述了用于区分肾细胞癌各个病理亚型的方法,但目前尚无肾癌原发瘤形态特征在区别肾癌病理类型中的价值和意义。本研究的主要目的是评估原发瘤最大直径和最小直径的比值(Ratio of maximum to minimum tumor diameter,ROD)在术前诊断肾细胞癌病理类型中的可行性及价值,以提高术前影像学诊断的准确性,更好地指导临床决策。方法:回顾性分析了 2015年1月至2019年12月间于中国医学科学院肿瘤医院(Cancer Hospital,Chinese Academy of Medical Sciences,CHCAMS)接受手术治疗的1661例肾癌患者。使用观测者操作特性曲线(Receiver operating characteristic,ROC)分析计算ROD的临界值,根据ROD临界值分别进行分组比较患者之间的临床和病理因素。采用Cox比例风险模型确定预测因素。结果:在透明细胞癌组(n=1477)和非透明细胞癌组(n=184)中,预测透明细胞癌的最佳ROD临界值为1.201(敏感性为90.7%,特异性为76.1,ROC曲线下的面积[Area Under the Curve,AUC]为0.827;p<0.001)。在非透明细胞癌组中,预测乳头状肾细胞癌的ROD临界值为1.092(敏感性为87.9%,特异性为40.5%,AUC为0.637;p=0.003)。与ROD<1.201组的患者相比,ROD≥1.201组中透明细胞癌患者的比例明显较高(85.8%vs 14.2%,p<0.001)。术前临床和影像学特征的多因素分析结果显示ROD≥1.201还是透明细胞癌病理类型的独立预测因素(相对危险度[odds ratio,OR]为3.061,95%置信区间[Confidence interval,CI]为2.179-4.300;p<0.001)。除此之外,ROD≥1.201组的肾癌患者具有较高比例的Fuhrman Ⅲ/Ⅳ级(91.2%vs 8.8%,p=0.014),肿瘤坏死(86.7%vs 13.3%,p=0.012)和肉瘤样分化(90.6%vs 9.4%,p<0.001)。结论:ROD可作为术前预测肾细胞癌患者病理类型的新指标,是诊断肾细胞癌的辅助手段。ROD预测肾透明细胞癌和乳头状肾细胞癌的最佳临界值分别为1.201和1.092。此外,ROD≥1.201与较高的Fuhrman,肉瘤样分化和肿瘤坏死均有关。但是,该结论尚有待于后续前瞻性的研究验证。●第二章 肾细胞癌肾静脉癌栓漏诊的术前危险因素分析和评分模型的建立目的:根据前期我们对肾癌合并肾静脉癌栓(renal vein tumor thrombus,RVTT)患者的长期生存情况的分析时发现,一些RVTT患者在术前被漏诊。为提高临床医师术前RVTT诊断的准确性,也是对前期课题研究的进一步深入和延伸,我们对RVTT漏诊的肾癌患者的临床特点进行了回顾性分析和总结,探索了临床特征是否可作为RVTT漏诊诊断预测指标,以更好地指导临床决策,最大程度来提高围手术期的安全性。方法:回顾性分析了 CHCAMS 2000年1月至2015年12月期间经病理诊断合并有肾静脉癌栓的128例肾癌患者的临床资料。根据术前RVTT是否漏诊将患者分为漏诊组和未漏诊组,然后按照性别和年龄1:1的比例等统计学匹配原则在同一连续的时期内因肾癌行根治性肾切除的患者,作为无癌栓组。通过Kaplan-Meier方法进行生存分析估计。采用Cox比例风险模型识别风险因素。结果:在肾静脉癌栓的患者中RVTT的术前漏诊率为30.5%(39/128)。与无癌栓组相比,漏诊组患者倾向于有较大比例的肿瘤位于肾中部(56.4%vs 28.2%,p=0.012),肾静脉造影剂填充不良(46.2%vs 23.1%,p=0.032)和瘤周侧支血管形成(33.3%vs 7.7%,p=0.005),而这些临床特征在漏诊组和未漏诊组之间没有统计学差异。在多变量分析中,肿瘤最大直径、肿瘤位于肾中部、肾静脉造影剂充盈不佳以及具有侧支血管的肿瘤(OR:1.22、1.35、1.25、1.22;p=0.034、0.003、0.015 和 0.037)是RVTT漏诊的独立预测因子。根据最终的多变量模型,计算出肾静脉癌栓的漏诊评分模型,该模型的AUC为0.852(95%CI:0.77-0.94,p<0.001),模型评分为3分患者的敏感性和特异性分别为74.4%和84.6%。此外,漏诊组的患者预后比未漏诊组的患者相对较好,并且伴有瘤周侧支血管的患者是肾癌肾静脉癌栓患者生存时间短的独立预测指标(风险比率,[hazard ratio,HR]:1.15,95%CI:1.02-1.47;p=0.025)。结论:术前肾癌肿瘤直径较大,位于肾中部,伴有瘤周侧支血管以及肾静脉造影剂充盈不足时,诊断上应特别考虑合并肾静脉癌栓的可能性。模型评分为3分的患者提示RVTT诊断漏诊的可能性较高。●第三章 人工智能技术识别病理切片图像辅助诊断肾透明细胞癌的研究目的:计算机科学在医学发展中的运用越来越广泛,AI作为计算机学科的分支领域发展最为突出。随着数字病理学的出现,AI在实体肿瘤的病理研究中取得了突破性进展,但AI在肾细胞癌诊断研究中的应用尚处于起步阶段,我们首先在肾癌病理上进行AI尝试,以获得AI辅助肾癌诊断的初步经验。本研究通过收集肾透明细胞癌病理切片、全视野数字切片(digital whole slide images,WSI)建立、人工标注、计算机辅助诊断,尝试去建立识别肾透明细胞癌的AI模型,探索通过AI识别病理切片图像诊断肾透明细胞癌的可行性,提高临床医师的工作效率并在将来可能利用此技术建立肾透明细胞癌的预后判断模型。方法:回顾性收集了 CHCAMS 2016年1月至2016年12月期间收治的行手术治疗的95例肾透明细胞癌患者的病理切片资料。所有符合AI模型标准的病理切片先进行人工标注,然后通过扫描仪扫描获得WSI,WSI经过预处理提取感兴趣的区域(region of interest,ROI)。将病理切片分为训练集和测试集,训练集和测试集中的肿瘤切片和正常组织切片的比例约为3:1。训练集中将最高像素的WSI分割成固定大小的小图进行提取(分辨率为256×256)。随机提取正负样本数,正样本数集从每张肿瘤切片提取550张小图,负样本数集从每张病理切片中提取300张小图,用于训练模型。模型训练采用卷积神经网络(convolutional neutral network,CNN)和随机森林模型。模型的准确性通过ROC曲线来评价。结果:本研究共收集95例肾透明细胞癌患者的病理切片,合计663张,每例患者平均有7.6±2.7(范围:3-17)张切片,共包含有506张肿瘤切片和157张正常肾组织切片。训练集肿瘤切片200张,正常切片74张,共提取200870张小图,验证集肿瘤切片250张,正常切片63张,共提取39211张小图。根据训练集训练的CNN模型和随机森林模型,测试集在切片水平上进行识别,测试集中313张病理切片识别错误的肿瘤切片有11张,识别错误的正常切片有6张,总的准确率为94.6%(296/313),精准率为 97.6%(239/245),召回率为 95.6%(239/250)。生成的概率热图和人工标注的病理图像达到了很好的一致性。ROC曲线结果显示AUC达到0.9658(95%置信区间:0.9603-0.9713),特异性为 90.5%,敏感性为 95.6%。结论:利用人工智能识别病理切片诊断肾透明细胞癌具有可行性,本研究建立的肾透明细胞癌AI模型有较高的准确性,初步结果显示该技术值得进一步深入研究。●第二部分 肾细胞癌智能分期和预后学习模型的研究●第一章 人工智能技术识别病历文本资料诊断肾癌T分期以及辅助软件开发的可行性研究目的:AI技术在医学领域正蓬勃发展,但在肾癌领域研究报道较少。自然语言作为AI的一个分支,可将人类语言转化为计算机表达的形式,本研究的主要目的是探讨利用人工智能自然语言的方法自动诊断肾细胞癌T分期的可行性和准确性,并开发一项肾癌智能分期软件,验证其准确性。从而使肾癌病理分期规范化,合理指导术后辅助治疗和预后预测,并可能有利于在基层推广应用。方法:本研究回顾性收集2018年1月至2020年1月CHCAMS 200例肾癌患者作为训练组,并选取2015年1月至2017年12月性别、年龄、病理分期匹配的200例患者作为测试组,使用基于规则匹配和条件随机场两种人工智能自然语言处理方法对病理文本数据进行提取分析。采用Python=3.6和sklearn crfsuite=0.3.6进行开发信息抽取算法,并对两种方法的预测效果进行对比。使用微软Visual Studio Enterprise 2017(version 15.9.21)工具进行编写程序代码和软件开发。选取2020年1月至2021年1月中国医学科学院肿瘤医院200例肾癌病理报告进行开发软件结果验证。结果:基于规则匹配和条件随机场两种人工智能方法在测试组的准确率分别为99.0%和95.5%。测试组的方法性能评估中,规则匹配方法的准确率为99.0%,召回率为99.0%,F1-分数为99.0%。条件随机场方法的准确率为97.1%,召回率为95.5%,F1-分数为96.3%。基于肾癌T分期要素,软件核心代码编写包括肿瘤直径、肾周脂肪、肾窦脂肪、癌栓及肾周侵犯情况等,开发出自动诊断肾癌T分期的软件V1.0(登记号2020SR1527729)。自动诊断肾癌T分期软件对200例肾癌进行T分期,验证组的准确性为100%。结论:人工智能通过自然语言处理方法自动诊断肾癌T分期可行,且基于规则匹配的算法准确性较高,自动诊断肾癌的T分期软件准确性高,可用于临床指导和规范肾癌分期,且可推广应用。●第二章 基于SEER数据库的人工智能机器学习算法预测肾细胞癌预后的研究目的:机器学习算法是人工智能技术的重要属支领域,但关于报道机器学习研究肾细胞癌的文献较少。本研究的主要目的是评估机器学习算法对肾癌患者生存预测的适用性,同时比较不同机器学习方法的差异性,为将来对不同数据库或大数据的肾癌预后研究提供理论支持。方法:本研究从SEER数据库中收集2004年至2015年符合入组标准的肾癌患者。根据入组标准筛选出4组数据进行尝试分析。数据采用Standard,Normalise以及Min Max Scaler三种预处理方法。六种机器学习模型用于预测患者5年生存率,包括支持向量机、贝叶斯方法、决策树模型、随机森林模型、神经网络模型、XGBoost模型。十字交叉验证法评估不同模型的稳定性,ROC曲线和C指数校正曲线用于评估模型的准确性。使用Kaplan-Meier方法评估生存情况。结果:本研究收集美国SEER数据库2004年至2015年间共计192912例肾癌患者。Min Max Scaler预处理更有益于支持向量机模型的训练;贝叶斯方法、决策树模型、随机森林模型和XGBoost基于单棵决策树或多棵决策树或者数据频率的提升方法对于数据预处理不敏感;Standard预处理适用于神经网络模型。删除缺失数据的数据集中,各模型对数据识别效果较差,以神经网络和XGBoost模型准确性较高,AUC分别为66.6%和67.0%。删除缺失数据及生存时间不足5年的数据集中,以随机森林、神经网络和XGBoost学习模型准确性高,AUC分别为80.8%、81.5%和81.8%。删除只缺失肿瘤直径以missForest填补缺失的数据集中,以神经经网络和XGBoost准确性高,AUC分别为69.8%和71.4%。删除只缺失肿瘤直径以missForest填补缺失和删除生存时间不足5年的数据集中,以随机森林、神经网络和XGBoost准确性高,AUC分别为84.1%、84.7%和84.8%。结论:人工智能机器学习算法可用于预测肾癌预后。我们建立的预测肾癌患者5年生存率的机器学习模型中,以神经网络和XGBoost模型准确性较高。鉴于数据集的局限性和复杂性,机器学习算法可以作为辅助工具对较大数据集和其中包含的复杂数据进行分析和处理。