论文部分内容阅读
目的:首先引入 Elastic-net回归分析方法并利用实际数据建立回归模型;其次探索 Car计分法和随机森林模型作为 Elastic-net回归模型自变量相对重要性排秩方法的可行性,并应用于实际数据估计自变量的相对重要性;再次通过bootstrap重复抽样技术在原始样本中抽取样本,用于比较和评价 Car计分法和随机森林模型在 Elastic-net回归模型自变量相对重要性排秩中的表现,并提出我们的推荐方法。 方法:本研究中 Elastic-net回归模型的建立,应用 Car计分法和随机森林模型计算 Elastic-net回归模型中自变量的相对重要性估计值等过程均通过R统计软件实现。应用 bootstrap重复抽样技术有放回地重复随机抽样,我们通过四次重复抽样(每次重复数依次为50、100、500、1000),建立四个大的bootstrap样本,分别用 Car计分法和随机森林模型计算 Elastic-net回归模型中自变量相对重要性估计值。 结果:我们建立的Elastic-net回归模型包含35个预测变量,模型R2为0.956,模型的预测表现和解释能力都较好。应用 Car计分法和随机森林模型计算 Elastic-net回归模型中自变量相对重要性的排秩结果各不相同。Car计分法在四个bootstrap样本中的自变量相对重要性排秩结果也有很大差异,每个自变量在不同样本中的重要性排秩位次在1~35之间散在发生,变化区间较大。并且随着重复抽样次数的增加,35个变量的相对重要性排秩位次均逐渐向均数18靠近。对于随机森林模型,虽然有些自变量的相对重要性排秩位次也会在小范围内波动,但是就其排秩位次的均值来看,四个bootstrap样本中自变量相对重要性的排秩结果都较为接近,并且该模型对自变量相对重要性的排秩结果较为明确。 结论:由于模型本身的理论基础不同,Car计分法和随机森林模型在Elastic-net回归模型自变量相对重要性中的排秩结果存在差异。其中 Car计分法很不稳定,其计算的自变量相对重要性排秩结果波动性太大。而随机森林模型由大量的分类树组合而成,由它计算的自变量相对重要性排秩结果非常稳定。并且它对各变量的相对重要性排秩位次十分明确,因此我们认为随机森林模型比Car计分法更适合作为 Elastic-net回归模型中自变量相对重要性的排秩方法。