论文部分内容阅读
背景及目的:
妊娠期高血压疾病(hypertensive disorders of pregnancy, HDP)是妊娠期特有的疾病,也是孕产妇和围生儿死亡的主要原因之一。早期诊断并干预可减少不良事件的发生。本研究采用不同的机器学习算法建立妊娠期高血压疾病预测模型,比较各模型的预测效能,获得最佳妊娠期高血压疾病预测模型。通过建立妊娠期高血压疾病预测模型,筛选出早期高危人群,达到重点监测和干预、改善疾病预后的效果。
方法:
建立妊娠期高血压疾病前瞻性队列,入选2014年3月至2018年12月汕头大学医学院第一附属医院妇产科门诊产检的早期(孕7-18周)孕妇,在孕24周、32周、36周及产后12周进行随访。随访内容包括:问卷填写、血压测量、生化指标检测及其他产科检查,登记妊娠期高血压疾病发生情况。对数据缺失超过30%的连续变量进行删失处理,数据缺失小于30%的连续变量,用多重填补法预处理。按7:3的比例将入选者随机分入建模组和验证组,以建模组数据进行模型拟合,验证组数据进行模型内部验证。本研究进行两次模型拟合,第一次:采取Lasso(Least absolute shrinkage and selection operator)算法对建模组数据变量进行筛选,继而采用Lasso-logistic、随机森林、神经网络及支持向量机四种机器学习算法分别建立四个妊娠期高血压疾病预测模型,用ROC曲线评估各模型的优劣,筛选出预测准确度最佳的模型。第二次:依据最佳模型中各预测指标系数权重,将预测指标组合成线性方程,计算出模型评分。将“年龄”和“初产妇”指标强制纳入分析,与模型评分一起构建列线图。
分别采用Hosmer-Lemeshow拟合优度检验、校准曲线和ROC曲线对构建的列线图模型进行评估。用决策曲线评估模型的临床效能。最后,将模型设计成网页小程序,以提高模型的临床操作性。
结果:
1.研究共纳入5067例妊娠早期妇女,3773例孕妇完成随访。对数据进行多重填补后,3197例纳入分析,其中建模组2258例,59例(2.61%)诊断为妊娠期高血压疾病。验证组939例,31例(3.30%)诊断妊娠期高血压疾病(妊娠期高血压疾病包括妊娠期高血压?子痫或子痫前期)。
2.Lasso算法筛选出妊娠期高血压疾病的预测指标:高体重指数、高收缩压、高舒张压、高白细胞、高血小板、高空腹血糖、有尿红细胞、有妊娠期高血压疾病、有妊娠期高血压疾病家族史、孕早期重度生活压力及重体力活动量。将预测指标分别纳入Lasso-logistic、随机森林、神经网络和支持向量机算法运算,建立四个妊娠期高血压疾病预测模型,通过ROC曲线评估每个模型的预测准确度。其中Lasso-logistic回归算法建立预测模型的预测准确度最佳(Lasso-logistic、随机森林、支持向量机和神经网络算法建立的模型进行ROC分析:建模组中AUC分别为0.816,95%Cl:0.754-0.879;0.780,95%Cl:0.716-0.844;0.816,95%Cl:0.750-0.882和0.780,95%Cl:0.711-0.848。验证组中AUC分别为0.795,95%Cl:0.709-0.881;0.516,95%Cl:0.485-0.548;0.638,95%Cl:0.528-0.747和0.719,95%Cl:0.621-0.817)。
3.依据筛选出的Lasso-logistic模型系数权重,将预测指标组合成线性方程,计算出模型评分。将年龄、初产妇、模型评分构建列线图模型,在建模组及验证组AUC分别为0.847,95%Cl:0.805-0.889和0.753,95%Cl:0.653-0.853。
4.列线图模型校准曲线和Hosmer-Lemeshow拟合优度检验提示模型预测准确度高。用决策曲线评估预测模型的临床效益,当妊娠期高血压疾病发病率在0-13%时,该预测模型具有较好临床预测效果。
结论:
Lasso-logistic回归算法建立妊娠期高血压疾病模型是4个预测模型中预测准确性最佳的模型,适合临床运用。高体重指数、高收缩压、高舒张压、高白细胞、高血小板、高空腹血糖、有尿红细胞、有妊娠期高血压疾病、有妊娠期高血压疾病家族史、孕早期重度生活压力及重体力活动量是妊娠高血压发生的危险因素,共同组合成模型评分。高模型评分、高龄、初产妇是妊娠期高血压疾病的独立危险因素。本研究建立的模型预测准确性高、临床操作性强。
妊娠期高血压疾病(hypertensive disorders of pregnancy, HDP)是妊娠期特有的疾病,也是孕产妇和围生儿死亡的主要原因之一。早期诊断并干预可减少不良事件的发生。本研究采用不同的机器学习算法建立妊娠期高血压疾病预测模型,比较各模型的预测效能,获得最佳妊娠期高血压疾病预测模型。通过建立妊娠期高血压疾病预测模型,筛选出早期高危人群,达到重点监测和干预、改善疾病预后的效果。
方法:
建立妊娠期高血压疾病前瞻性队列,入选2014年3月至2018年12月汕头大学医学院第一附属医院妇产科门诊产检的早期(孕7-18周)孕妇,在孕24周、32周、36周及产后12周进行随访。随访内容包括:问卷填写、血压测量、生化指标检测及其他产科检查,登记妊娠期高血压疾病发生情况。对数据缺失超过30%的连续变量进行删失处理,数据缺失小于30%的连续变量,用多重填补法预处理。按7:3的比例将入选者随机分入建模组和验证组,以建模组数据进行模型拟合,验证组数据进行模型内部验证。本研究进行两次模型拟合,第一次:采取Lasso(Least absolute shrinkage and selection operator)算法对建模组数据变量进行筛选,继而采用Lasso-logistic、随机森林、神经网络及支持向量机四种机器学习算法分别建立四个妊娠期高血压疾病预测模型,用ROC曲线评估各模型的优劣,筛选出预测准确度最佳的模型。第二次:依据最佳模型中各预测指标系数权重,将预测指标组合成线性方程,计算出模型评分。将“年龄”和“初产妇”指标强制纳入分析,与模型评分一起构建列线图。
分别采用Hosmer-Lemeshow拟合优度检验、校准曲线和ROC曲线对构建的列线图模型进行评估。用决策曲线评估模型的临床效能。最后,将模型设计成网页小程序,以提高模型的临床操作性。
结果:
1.研究共纳入5067例妊娠早期妇女,3773例孕妇完成随访。对数据进行多重填补后,3197例纳入分析,其中建模组2258例,59例(2.61%)诊断为妊娠期高血压疾病。验证组939例,31例(3.30%)诊断妊娠期高血压疾病(妊娠期高血压疾病包括妊娠期高血压?子痫或子痫前期)。
2.Lasso算法筛选出妊娠期高血压疾病的预测指标:高体重指数、高收缩压、高舒张压、高白细胞、高血小板、高空腹血糖、有尿红细胞、有妊娠期高血压疾病、有妊娠期高血压疾病家族史、孕早期重度生活压力及重体力活动量。将预测指标分别纳入Lasso-logistic、随机森林、神经网络和支持向量机算法运算,建立四个妊娠期高血压疾病预测模型,通过ROC曲线评估每个模型的预测准确度。其中Lasso-logistic回归算法建立预测模型的预测准确度最佳(Lasso-logistic、随机森林、支持向量机和神经网络算法建立的模型进行ROC分析:建模组中AUC分别为0.816,95%Cl:0.754-0.879;0.780,95%Cl:0.716-0.844;0.816,95%Cl:0.750-0.882和0.780,95%Cl:0.711-0.848。验证组中AUC分别为0.795,95%Cl:0.709-0.881;0.516,95%Cl:0.485-0.548;0.638,95%Cl:0.528-0.747和0.719,95%Cl:0.621-0.817)。
3.依据筛选出的Lasso-logistic模型系数权重,将预测指标组合成线性方程,计算出模型评分。将年龄、初产妇、模型评分构建列线图模型,在建模组及验证组AUC分别为0.847,95%Cl:0.805-0.889和0.753,95%Cl:0.653-0.853。
4.列线图模型校准曲线和Hosmer-Lemeshow拟合优度检验提示模型预测准确度高。用决策曲线评估预测模型的临床效益,当妊娠期高血压疾病发病率在0-13%时,该预测模型具有较好临床预测效果。
结论:
Lasso-logistic回归算法建立妊娠期高血压疾病模型是4个预测模型中预测准确性最佳的模型,适合临床运用。高体重指数、高收缩压、高舒张压、高白细胞、高血小板、高空腹血糖、有尿红细胞、有妊娠期高血压疾病、有妊娠期高血压疾病家族史、孕早期重度生活压力及重体力活动量是妊娠高血压发生的危险因素,共同组合成模型评分。高模型评分、高龄、初产妇是妊娠期高血压疾病的独立危险因素。本研究建立的模型预测准确性高、临床操作性强。