论文部分内容阅读
ICU患者的死亡风险评估对确定后续治疗方案、降低抢救成本具有重要意义。以往工作主要基于疾病严重程度评分系统和一些机器学习算法来预测死亡风险。两种方法都只使用患者的生命体征和生理变量作为特征来描述疾病的严重程度。事实上,患者的医疗诊治过程也隐含有患者病情严重程度的宝贵信息,可以为评估患者的死亡风险提供决策信息。为利用这些信息,本文基于患者历史处方数据对其所服用的药物以及药物治疗模式进行挖掘,再结合患者的生命体征和生理变量,对患者的死亡风险进行预测。由此提出融合患者医疗过程挖掘和患者生理体征的死亡风险综合预测方法,主要研究内容如下:(1)LDA药物功效主题聚类:假设同一病种的患者在治疗过程中所服用的治疗药物按其功效分为多个主题,这些药物功效主题分布服从多项式分布,同时患者每日所服用的治疗药物也是按照多项式分布服从于这些药物功效主题,由此可以借助LDA主题模型从历史患者的历史用药日志中训练得到患者每个诊疗日的药物功效主题分布以及各药物功效主题下的药物分布,藉此可为后续医疗过程挖掘奠定基础;(2)基于概率后缀树与随机森林的死亡风险预测模型:在完成药物聚类后,通过计算患者每日药物功效主题分布的相似性,对不同诊疗日的药物功效组合方案进行聚类,同一簇内各诊疗日的药物功效分布用统一的药物功效组合标签进行标注,由此可将患者的药物治疗流程转换为一个药物功效组合标签序列;再假设患者每日用药的药物功效组合服从变阶马尔可夫模型,由此可借助概率后缀树对患者的药物治疗过程进行建模。之后,可根据患者服用药物的相似性以及最终治疗结果,将患者分为四类,每类可训练一个概率后缀树模型。计算待预测患者的药物治疗序列与上述四个概率后缀树模型的相似度。将该相似度以及患者的各项体征数据作为输入,使用随机森林分类模型,训练患者的死亡风险预测模型;(3)基于LSTM神经网络与随机森林的死亡风险预测模型:患者住院期间服用的药物可视作药物功效主题分布的时序数据,而长短期记忆网络,可以学习长期依赖信息,可以很好地解决长时依赖问题,通过LDA主题模型求得每日的药物主题分布,以主题分布作为单日特征,利用长短期记忆网络模型,对时序药物数据进行分类预测,以预测概率以及患者的各项体征数据作为输入,使用随机森林分类模型,训练患者的死亡风险预测模型;结合MIMIC-Ⅲ临床数据集中败血症以及肺炎患者的处方用药及生理体征数据对所提方案的可行性和有效性进行评估。实验表明,概率后缀树和随机森林结合的预测方法更适合败血病这种住院时间较短、治疗模式相对固定的病种;而对于治疗方案复杂、治疗模式多变、住院时间较长的病种,使用LSTM长短期记忆网络与随机森林结合的预测方法效果更优。两种方法取得的精准率、召回率、F1值等指标优于基于特征的传统方法。