论文部分内容阅读
在医学、经济学、社会科学等很多科学研究中,数据存在缺失是一个常见的问题。当数据存在缺失时,去掉有缺失数据的个体,利用数据全部观测到的个体进行统计推断是一种常见的方法。然而在很多研究中,这种方法得到的统计推断是不合理的,因此缺失数据的研究是非常重要的。缺失数据的研究是很复杂的,缺失形式也是多种多样的,有响应变量缺失,也有协变量缺失,也有响应变量和协变量同时都有缺失的。研究缺失数据的时候首先要弄清楚数据缺失的原因,已有的工作通过缺失机制来说明数据缺失的具体形式。存在的研究缺失数据的工作将缺失机制分为三类。在很多科学研究中,都假设数据的缺失和己缺失的数据的取值没有关系,这种缺失在实际中是常见的,我们称之为随机缺失(MissingatRandom),而缺失数据的很多研究都是基于这一假设进行的。
本文在响应变量随机缺失下研究了一些统计问题。主要内容如下:
(1)在响应变量随机缺失时,利用半经验伪似然对由估计方程定义的参数进行估计,并构造了参数的半经验伪似然比置信区间,给出了估计在有限样本的表现,研究了估计的渐近性质。
(2)在响应变量随机缺失、缺失机制模型正确假定的情况下,给出了由估计方程定义的参数的两个加权的GMM估计。在估计的过程中,经验似然为GMM提供了权重,充分降维为经验似然提供了辅助信息。得到的两个估计,第二个估计改进了第一个估计。研究了估计的渐近性质和有限样本的表现。
(3)在响应变量随机缺失时,给出了一种充分降维的方法,研究了这种方法的渐近性质和有限样本表现。
(4)研究了处理效应差异的中位数估计。结合缺失机制模型和具体的回归模型利用分布的方法给出了处理效应差异的中位数的估计,并在此基础上给出了一个新的估计,得到的新的估计在缺失机制假设正确的情况下,方差变小了,并且是双稳健的。