跨平台缺失数据联合填补方法比较

来源 :2016年中国生物统计学术年会 | 被引量 : 0次 | 上传用户：hlf00852

【摘要】

：

【作者】

：

董学思陈峰

【机构】

：

南京医科大学生物统计学系

【出处】

：

2016年中国生物统计学术年会

【发表日期】

：

2016年5期

【关键词】

：

跨平台填补机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　研究背景：近几年,机器学习方法被应用于缺失数据的填补,机器学习方法有着填补效率高,填补时间短,对数据结构没有严格要求等传统统计方法所欠缺的优点.研究目的：本研究考虑将机器学习填补方法应用于跨平台数据,针对于表达数据和甲基化数据,为后期统计分析做基础.方法与评价：本研究将机器学习的填补方法(多层感知机,K近邻,随机森林)应用于肺癌数据(数据来源TCGA数据库),并将填补效果与传统统计方法(均值填补、MCMC填补)进行比较.5种填补方法填补后的数据与完整数据进行比较,比较指标为均值变化、矩阵2范数以及填补时间.结果与结论：机器学习方法在填补效果上较传统统计填补方法有明显优势,填补时间总体也较短.但随机森林的方法填补时间相对较长,仅短于MCMC方法.对于肺癌数据,机器学习的填补方法更具有效率和效果上的优势.

其他文献

竞争风险模型在老年人心血管疾病风险评估中的应用

目的：比较原因别风险模型和部分分布风险模型预测性能.方法：选取北京市老龄化多维纵向研究中基线无心血管疾病的55岁及以上老年人.感兴趣事件为心血管疾病死亡,竞争事件为其他原因死亡.采用原因别风险模型和部分分布竞争风险模型建立预测模型.通过受试者特征工作曲线下面积(AUC)评价模型的判别能力；采用校正曲线衡量模型的校正能力.结果：1992年基线无心血管疾病共1642人,随访20年,362人因心血管疾病

会议

心血管疾病竞争风险模型原因别风险模型风险评估老年人群

Describing interaction effect between lagged rainfalls on malaria: an epidemiology study in south-we

Objective When discussing the relationship between meteorological factors and malaria, the previous studies mainly focus on the interaction between different climatic factors, while the possible inter

会议

MalariaRainfallLagNonlinearInteraction

Diagnostic accuracy of treadmill exercise tests among Chinese women with coronary artery diseases: a

BACKGROUND: Treadmill exercise test (TET) is one of the most common noninvasive diagnosis approaches for ischemic heart diseases, but potential reduction of TET accuracy among women patients was ignor

会议

treadmill exercise testscoronary artery diseasespremenopausal womensystematic

Effects of temperature on mortality in Hangzhou: a study of attribute risk with distributed lag non-

Background: The evidence of disease mortality attributable to temperature is limited among Chinese population.In this study, we established the measures of attributable risk within distributed lag non

会议

Attributable riskMortalityTemperatureDistributed lag non-liner model

Gene selection with longitudinal next-generation sequencing data: a comparison study

Objective.To detect genes containing both rare and common variants from next-generation sequencing data with longitudinal measure of phenotypic traits, using penalized generalized estimating equations

会议

Penalized Generalized Estimating EquationsPenalized quadratic inference functio

广东省15岁以上患者门诊满意度分析

背景与目的：分析2013年广东省15岁以上两周内就诊患者的满意度及其影响因素.方法：对2013年广东省卫生服务调查的数据进行分析,采用第五次国家卫生服务调查中满意度相关指标对居民满意度进行评估.利用logistic回归分析两周内就诊患者的满意度的影响因素,应用SPSS20.0软件实现数据分析.结果：两周内就诊患者总体满意度为67.25％ (95％CI： 66.29％～68.22％),其中6106

会议

患者满意度两周内就诊广东省影响因素

广东省老年人卫生服务利用影响因素探索

背景与目的：采用安德森行为健康模型,探索影响老年人卫生服务利用的倾向因素、能力因素以及需要因素,评价与比较不同因素对老年人卫生服务利用的影响大小.方法：数据来自于第五次国家卫生服务调查家庭调查部分广东省数据,采用单因素logistic回归分析以及层次logistic回归分析探索15487名60岁及以上者老年人卫生服务利用的影响因素.结果：层次logistic回归分析结果显示,对于就诊服务,进入模型

会议

卫生服务利用安德森模型老年人

广西仫佬族农村老年人心理健康状况及影响因素研究

目的：评估广西仫佬族农村老年人心理健康状况及其影响因素.方法：用症状自评量表进行基于社区横断面调查.结果：①广西仫佬族农村老年人在躯体化、强迫症状、人际关系、焦虑、敌对、恐怖、偏执、精神病性等8个因子得分和总分均与汉族老年人有差异(p＜0.01).②不同年龄、性别、婚姻状况、慢性病情况、住院情况、经济水平的仫佬族农村老年人心理健康状况也不同(P＜0.05).③Logistic回归显示：高龄、女性、

会议

仫佬族老年人心理健康

79广西少数民族地区农村年人社会支持状况调查

目的：了解广西壮族、瑶族、苗族、侗族、京族、回族、仫佬族、毛南族、水族等九个少数民老年人和汉族农村老年人社会支持现状.方法：采用社会支持量表(SSRS)进行横断面入户调查广西少数民族农村地区60岁以上老年人.结果：不同民族老年人社会支持量表总分及三个维度得分差异均具有统计学意义(均有P ＜0.05).总分方面，京族老年人(34.34±4.61)最高，水族老年人(20.59±6.71)最低；客观支持

会议

少数民族老年人社会支持

Implications of Healthcare System Reform for Prevalence and Variation of Hospital Readmission in Chi

Objective We know little about hospital readmissions in China and the variation of readmissions rates after the initiation of Chinahealthcare system reform (HSR).We provided insights into the profile

会议

Readmission rateHealthcare system reformPrevalenceVariationBlinder-Oaxaca

跨平台缺失数据联合填补方法比较

其他学术论文