论文部分内容阅读
研究背景:近几年,机器学习方法被应用于缺失数据的填补,机器学习方法有着填补效率高,填补时间短,对数据结构没有严格要求等传统统计方法所欠缺的优点.研究目的:本研究考虑将机器学习填补方法应用于跨平台数据,针对于表达数据和甲基化数据,为后期统计分析做基础.方法 与评价:本研究将机器学习的填补方法(多层感知机,K近邻,随机森林)应用于肺癌数据(数据来源TCGA数据库),并将填补效果与传统统计方法(均值填补、MCMC填补)进行比较.5种填补方法填补后的数据与完整数据进行比较,比较指标为均值变化、矩阵2范数以及填补时间.结果 与结论:机器学习方法在填补效果上较传统统计填补方法有明显优势,填补时间总体也较短.但随机森林的方法填补时间相对较长,仅短于MCMC方法.对于肺癌数据,机器学习的填补方法更具有效率和效果上的优势.