论文部分内容阅读
目的:研究基于多期动态增强(Dynamic contrast-enhanced,DCE)MRI原始图像的影像组学联合机器学习以预测前列腺癌(Prostate cancer,PCa)的侵袭性。方法:收集2016年1月至2018年5月在我院进行磁共振检查并经活检证实为前列腺癌的40位患者,每位患者的活检均在磁共振检查后4周内进行。收集每位患者的临床与影像资料,根据时间-信号强度曲线,在原始DCE-MRI图像上肿瘤强化的第一期和最强一期上逐层勾画病灶,并自动计算出每个病灶的1029个定量影像组学特征(这些特征可分为四类,类别一为一阶特征:通过常用的基本度量来定量描绘图像体素强度的分布,如均值,熵等;类别二为形状大小特征:反映感兴趣区的三维形状和各种径线;类别三为纹理特征:可以量化区域异质性的差异,主要是从灰度游程矩阵(Gray-level run-length matrix,GLRLM),灰度区域矩阵(Gray-level size zone matrix,GLSZM)和灰度共生矩阵(Gray-level co-occurrence matrix,GLCM)中计算的纹理特征;类别四为高阶特征:主要包括经滤波器变换后导出图像的强度和纹理特征,图像变换的滤波器如下:指数,平方,平方根,对数和小波),构成三个数据集:数据集-F(基于肿瘤强化的第一期提取)、数据集-S(基于肿瘤强化的最强一期提取)和数据集-FS(基于第一期及最强一期提取)。然后,依次采用方差选择法、单变量选择法及最小绝对收缩和选择算子(Least absolute shrinkage and selection operator,LASSO)算法进行特征降维,筛选出每个数据集的最优特征子集。最后,使用5种分类器:逻辑回归(Logistic regression,LR)、随机森林(Random forests,RF)、决策树(Decision tree,DT)、k-近邻(K-nearest neighbor,KNN)和支持向量机(Support vector machine,SVM)利用5-折交叉验证法建立预测模型,通过曲线下面积(Area under the curve,AUC)评估每个模型的预测性能。将具有最佳分类性能的特征子集与前列腺癌灶的GS评分(Gleason score,GS)之间进行相关性分析。结果:经过特征降维过程,数据集-F,-S和-FS中分别得到了8、4和16个特征作为最优子集。数据集-F的最优子集为:F-轴位最小径(F-Least Axis-shape)、小波变换(滤波器高-低-高)后的F-中值(F-Median)、小波变换(滤波器高-低-高)后的F-均值(F-Mean)、平方变换后GLSZM中的F-大区域增强(F-Large area emphasis,LAE)、小波变换(滤波器高-高-高)后GLRLM中的F-长距离增强(F-Long Run Emphasis,LRE)、指数变换后GLRLM中的F-长度不均匀性(F-Run length non-uniformity,RLN)、平方根变换后的F-总能量(F-Total Energy-square root)和F-总能量-一阶特征(F-Total Energy-first order statistics)。数据集-S的最优子集为:S-轴位最小径(S-Least Axis-shape)、GLSZM纹理特征中的S-大区域高灰度增强(S-Large area high gray-level emphasis,LAHGLE)、小波变换(滤波器高-高-低)后的S-中值和小波变换(滤波器高-高-低)后的S-均值。数据集-FS的最优子集为:F-轴位最小径、S-轴位最小径、F-总能量-一阶特征、对数变换后的F-总能量(F-Total Energy-logarithm)、小波变换(滤波器低-低-高)后GLSZM中的S-LAE、GLSZM纹理特征中的S-LAHGLE、小波变换(滤波器高-高-低)后GLSZM中的F-区域熵(F-Zone entropy,ZE)、小波变换(滤波器高-高-高)后GLRLM中的F-LRE、指数变换后GLRLM-中的F-RLN、小波变换(滤波器高-高-高)后GLRLM中的S-LRE、小波变换(滤波器高-低-高)后的F-中值、平方根变换后的S-峰度(S-Kurtosis-square root)、小波变换(滤波器高-低-高)后的F-均值、平方变换后GLSZM中的F-LAE、GLSZM中的S-区域差异(S-Zone Variance,ZV)和小波变换(滤波器高-高-低)后的S-均值。基于数据集-F各模型的预测性能为:LR(AUC=0.87)、RF(AUC=0.83)、DT(AUC=0.71)、KNN(AUC=0.88)以及SVM(AUC=0.84)。基于数据集-S各模型的预测性能为:LR(AUC=0.84)、RF(AUC=0.80)、DT(AUC=0.69)、KNN(AUC=0.82)以及SVM(AUC=0.83)。基于数据集-FS各模型的预测性能为:LR(AUC=0.93)、RF(AUC=0.82)、DT(AUC=0.77)、KNN(AUC=0.91)以及SVM(AUC=0.90)。在三个数据集中,基于数据集-FS的LR具有最佳的预测性能(AUC=0.93)。并且该数据集中的F-轴位最小径、S-轴位最小径、F-总能量-一阶特征、对数变换后的F-总能量、小波变换(滤波器低-低-高)后GLSZM中的S-LAE、GLSZM纹理特征中的S-LAHGLE、小波变换(滤波器高-高-低)后GLSZM中的F-ZE、小波变换(滤波器高-高-高)后GLRLM中的F-LRE、指数变换后GLRLM-中的F-RLN和小波变换(滤波器高-高-高)后GLRLM中的S-LRE这10个特征与GS呈正相关。同时,基于数据集-F模型的预测性能普遍优于数据集-S。结论:应用基于DCE-MRI肿瘤强化的第一期及最强一期原始图像的影像组学联合机器学习可以无创、准确且自动地预测前列腺癌的侵袭性。