机器学习研究及其在生存分析中的应用

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:eastphoto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生存分析的主要研究课题是生存时间或结果同各种相关影响条件之间的相关关系,常用到的分析工具有:生存函数,寿命分布函数,比例风险模型等。这些分析手段仍旧停留在传统的统计学方法,预测精度在部分实际数据上不太理想。针对生存分析短期预测问题,可以使用比较成熟的半参数化的Cox model算法。但是Cox model的使用条件是比例风险假设,一般来说这是一个很强的假设,在实际数据中由于含有大量噪声,很难满足这个假设条件。而机器学习算法模型对于数据分布的限制极少,有更大的假设空间和拟合效果,国内外也有学者利用随机森林、提升树算法以及BP神经网络对生存时间的预测做过一些研究。但机器学习技术最近发展极快,这些研究距离现在也比较久远了,如Adam这些新的优化算法还未利用于生存分析中BP网络的训练,还有XGBoost这种新的集成学习器也还未在生存时间预测中使用。XGBoost是一个非常新颖的提升树学习算法框架,在大量的实际应用中表现出了很好的预测效果以及稳定性,相比一般的机器学习框架有很大的优势。本文主要尝试把XGBoost引入到生存分析研究应用中,并且对原模型进行了一定改进。同时,还将Adam算法引入传统BP网络,与使用SGD算法的网络进行了对比。然后,通过数值实验来验证新模型和新的优化算法的表现。在文章第四章中,我们对XGBoost算法进行了改进。将机器学习中处理过拟合问题常用的范数引入原XGBoost模型的目标函数,并且该目标函数进行求解,得到了新的提升树迭代算法。本文还将生存分析中风险函数加入训练数据中并放入XGBoost模型中进行训练,得到一个结合了统计学方法和机器学习算法的复合模型,与单一XGBoost相比有着更好的精度和稳定性。最后给出了各种方法在不同数据集上结果展示,表明新方法的有效性。
其他文献
本文研究了一类具有时滞的HIV感染的微分方程模型.在文[7]的基础上,以模型中的时滞为参数进行了Hopf分支的分析,得出了在正平衡点存在的条件下,系统的正平衡点附近可能会产生Hop
排序问题是一类重要的组合优化问题.在经典排序模型中通常假设工件的加工时间为常数.但在许多实际问题中,工件的加工时间可能与其开工时间、所用资源或所处的位置有着某种联
本文将各向异性非协调元应用于三维空间中描述细菌传染的反应扩散方程组的初边值问题。借助单元的一些特性和误差估计技巧,分别在半离散和全离散有限元格式下,研究了其数值解
本文通过分析2005-2014国内外发表的191篇商务英语语言学期刊论文,研究了语言学视角下商务英语语言学的总体特点、研究主题及发展趋势。从多维度的角度研究可以看出,商务英语
平行分批排序和在线排序是两个发展迅速的排序模型。平行分批排序是指机器可以同时成批加工多个工件(有限或无限)。每批包含的工件同时开工同时完工。每批的加工时间是这批工