【摘 要】
:
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是
【机 构】
:
天津财经大学中国经济统计研究中心,河北经贸大学数学与统计学院
【基金项目】
:
国家社会科学基金项目《基于数据挖掘技术的调查数据质量控制研究》(13BTJ007)
论文部分内容阅读
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。
其他文献
<正> (一) 从古至今,在民间广泛流传很多美丽的传说。这些传说,大多记叙历史人物和历史事件,有些则是述说地方古迹、自然风物和社会习俗的。传说虽然具有一定的幻想色彩,但是
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
本文在简要介绍化学工程学科前沿专题课的基础上,从研究生教育的目标、前沿课程的特点、专题式教学的组织形式三个方面分析了案例库建设的必要性,并进一步讨论了案例库建设的
以橙子和薏米为主要原料制成一种保健饮品。通过正交试验,确定最佳生产配比为:蔗糖含量1.3%、柠檬酸含量0%、薏米和橙汁的体积比为3:2。对饮料的可溶性固形物、p H值、还原糖、
本文从服务业发展效率视角出发,结合52个国家1996年-2015年国家层面的发展数据,运用空间面板计量模型,研究了服务效率对国家科技创新产生的影响,利用调节效应模型研究了不同
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
工信部目前正式向中国电信、中国移动、中国联通、中国广电发放5G商用牌照。我国正式进入5G商用元年。值得注意的是,中国广电成为除三大基础电信运营商外,又一个获得5G商用牌
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技