论文部分内容阅读
随着抽样调查和问卷调查的方法被广泛运用,调查中的缺失数据受到社会科学家越来越多的关注.目前,国内社会科学领域对调查中的缺失数据一般采用列删法进行处理,该方法过于简单,并且有可能导致错误的结论.基于这样的背景,本文提出了缺失数据处理中几个基本的问题:1)对缺失数据采用列删法进行处理是否会造成结果的偏差;2)不同的缺失数据插补方法究竟孰优孰劣;3)基于重要的辅助变量对样本进行分类,并在各个分类单元内使用数据插补方法得到的结果是否更好。本文通过北京市流动儿童发展跟踪调查(PSDMC)第三期的数据,对存在缺失值的父亲受教育水平、家庭月收入、亲子交流状况三个变量分别使用列删法、均值插补法、条件均值法、热平台插补法以及链式方程多重插补法进行处理,并对处理之后数据集的分布以及回归分析的结论进行比较.主要的研究结论包括以下几个方面:1)当数据缺失率较高,特别是在数据本身异质性较大的情况下,使用列删法存在较大的问题,在复杂的统计分析中,会造成分析结果明显的估计偏误;2)多重插补方法较其他的插补方法而言,得到的插补数据能够更好的“还原”原始数据的分布;3)基于分类的数据插补方法,由于使用了与需要插补变量相关的辅助信息,优于非分类的数据插补方法.