论文部分内容阅读
缺失数据是统计分析中普遍存在的问题,传统数据分析方法不能直接应用到缺失数据,因此对于缺失数据统计方法的研究成为热点问题。缺失数据分析方法分为三类:似然方法,加权方法和归因方法,而似然方法往往作为归因方法的辅助手段。加权方法中比较流行的是逆概率加权和增强的逆概率加权,归因方法中应用广泛的是多重归因。现有的研究主要关注于协变量或响应变量单一缺失的统计分析问题,对于两者均可能缺失的统计分析问题研究较少,这类问题的研究不是单一缺失的简单嵌套,会面临新的挑战。 本文采用理论研究与模拟研究相结合的方法,针对响应变量和协变量均可能随机缺失的统计分析问题进行研究。本文的主要研究内容及成果如下: 首先,推广了逆概率加权和增强的逆概率加权估计方程一般形式。这两种方法研究的关键在于建立倾向得分模型。为了保证模型的一致性,本文通过分别建立响应变量指示变量和协变量指示变量的边际条件密度来建模倾向得分。作为逆概率加权的推广,增强的逆概率加权通过引入一个工作模型改进了逆概率加权的不稳定性。本文详细分析了建立倾向得分模型和工作模型的方法,从而推广了两种方法估计方程的一般形式。建模中的厌恶参数采用Robins,Rotnitzky和Zhao在文献中建议的方法进行估计。 其次,推广了多重归因估计方程的一般形式。详细分析了归因模型的建模方法,以及特殊分布的归因值的抽取。详细介绍了重要性重抽样方法抽取归因值的步骤并证明了归因值的合理性。 最后,在理论研究的基础上,通过模拟研究比较三种方法的估计效果,并与完整案例分析结果作对比。由于估计的有效性依赖于模型的正确指定,而此类问题的模型检验缺少统一的评价标准,因此,本文进一步研究了三种方法在模型错误下的估计表现,并与完整案例分析做对比。本文采用估计的偏差和均方误差评价估计的表现。