论文部分内容阅读
生存分析的主要研究课题是生存时间或结果同各种相关影响条件之间的相关关系,常用到的分析工具有:生存函数,寿命分布函数,比例风险模型等。这些分析手段仍旧停留在传统的统计学方法,预测精度在部分实际数据上不太理想。针对生存分析短期预测问题,可以使用比较成熟的半参数化的Cox model算法。但是Cox model的使用条件是比例风险假设,一般来说这是一个很强的假设,在实际数据中由于含有大量噪声,很难满足这个假设条件。而机器学习算法模型对于数据分布的限制极少,有更大的假设空间和拟合效果,国内外也有学者利用随机森林、提升树算法以及BP神经网络对生存时间的预测做过一些研究。但机器学习技术最近发展极快,这些研究距离现在也比较久远了,如Adam这些新的优化算法还未利用于生存分析中BP网络的训练,还有XGBoost这种新的集成学习器也还未在生存时间预测中使用。XGBoost是一个非常新颖的提升树学习算法框架,在大量的实际应用中表现出了很好的预测效果以及稳定性,相比一般的机器学习框架有很大的优势。本文主要尝试把XGBoost引入到生存分析研究应用中,并且对原模型进行了一定改进。同时,还将Adam算法引入传统BP网络,与使用SGD算法的网络进行了对比。然后,通过数值实验来验证新模型和新的优化算法的表现。在文章第四章中,我们对XGBoost算法进行了改进。将机器学习中处理过拟合问题常用的范数引入原XGBoost模型的目标函数,并且该目标函数进行求解,得到了新的提升树迭代算法。本文还将生存分析中风险函数加入训练数据中并放入XGBoost模型中进行训练,得到一个结合了统计学方法和机器学习算法的复合模型,与单一XGBoost相比有着更好的精度和稳定性。最后给出了各种方法在不同数据集上结果展示,表明新方法的有效性。