论文部分内容阅读
目的运用决策树算法建立分类模型以期得出骨髓增生异常综合征(MDS)和再生障碍性贫血(AA)良好的分类规则,指导或辅助医生对两疾病的鉴别诊断。方法通过查阅2000多份中国医学科学院血液病医院收治的MDS及AA患者的病例资料,选取其中专家会诊后确诊的780例病例进行调查研究,收集所有被调查病例的包括姓名、年龄、职业、民族等基本信息以及血液学参数、相关病毒指标、血清学指标、血涂片检测参数、骨髓涂片检测参数、免疫学指标、流式分析参数、干细胞集落培养指标等检查结果共计203项资料信息。利用Epi Data 3.1数据库系统将所有信息录入数据库,并转化为建模软件分析使用的Excel文件。利用SPSS Modeler14.1软件包进行决策树模型的建立与分析,建立C5.0、CART及QUEST这三种医学领域最为常用的决策树模型,计算并比较三个模型的预测准确率、平均准确率、精确率、灵敏度、F1度量、特异度、约登指数;建立决策树组合模型,并选出最优组合模型,将其同最优单一决策树模型进行对比。结果MDS与AA两组患者年龄组构成差异有统计学意义(χ2=47.411,P<0.001)。两组患者性别构成及民族构成基本相同,差异均无统计学意义(P>0.05)。在患者职业构成中,工人、农民和学生是患病的三大主体,两组患者的职业构成差异具有统计学意义(χ2=39.063,P<0.001)。选用的三种决策树模型对两疾病的区分鉴别都有比较好的结果,预测准确率都高于70%,C5.0、CART、QUEST模型对测试集样本的预测准确率分别为78.12%、73.75%、76.88%,各模型的预测准确率差异无统计学意义(P>0.05)。C5.0、QUEST、CART模型的平均准确率依次为77.08%、75.44%、73.48%,其中C5.0拥有最高的平均准确率。对于本研究作为正例的MDS样本,C5.0、CART和QUEST模型的预测精确率分别为76.24%、76.14%和73.83%,三个模型的预测精确率差异无统计学意义(P>0.05);三个模型的预测灵敏度分别为87.50%、76.14%和89.77%,模型间差异具有统计学意义(χ2=7.161,P<0.05)。C5.0、QUEST和CART模型的F1度量值依次为81.48%,81.03%,76.14%,其中F1度量值最高的是C5.0模型。对于本研究作为负例的AA样本,C5.0、CART和QUEST模型的预测特异度分别为66.67%、70.83%、61.11%,模型间差异无统计学意义(P>0.05)。C5.0、QUEST和CART模型的约登指数依次为0.54、0.51、0.47,其中C5.0拥有最高的约登指数。建立的决策树组合模型中,C5.0与QUEST的组合模型预测准确率达到80%,然而各组合模型间差异无统计学意义(P>0.05)。对比组合模型发现,即使在精确率、灵敏度及特异度等指标上的差异无统计学意义(P>0.05),然而C5.0+QUEST组合模型在平均准确率、F1度量值及约登指数等综合指标上都具有最高值,分别为79.17%、82.80%、0.58。C5.0+QUEST组合模型在综合指标上比C5.0单一决策树模型均有所提升。三种单一决策树模型选用的根节点都为骨髓流式细胞检测成熟淋巴细胞的百分比。结论对于本数据样本,C5.0、CART及QUEST这三种模型的预测准确率都较高;从综合指标来看,C5.0是最优的单一决策树模型。C5.0+QUEST是最优的组合模型,其较C5.0单一决策树模型在各项综合评价指标上均有所提升,医生可以借用此模型来辅助对两疾病的鉴别诊断。骨髓流式细胞检测中的成熟淋巴细胞比例和原始粒细胞数是MDS和AA鉴别诊断十分重要的变量。