论文部分内容阅读
本文主要考虑缺失数据的广义估计方程统计推断方法,特别是不可忽略缺失数据下的估计方程方法. 在社会经济调查,科学实验以及生物医学研究中,数据缺失的情况是很常见的.若数据集中存在缺失数据,理论上来说是不能对剩余数据直接进行统计推断的,因为剩余的数据可能已经不具备对总体的代表性,对这样的样本进行分析可能会产生很大的偏差.那么是不是一旦数据有缺失就不能直接使用剩余样本?如果不是,具备什么特征的缺失数据可以,什么样的缺失数据集不可以?怎样来划分界限?即使可以直接丢弃缺失了的数据,统计分析的结果会不会因为丢弃了信息而损失效率?如果不能直接丢弃缺失数据,那么选择哪些方法才是恰当的?对于这些问题的讨论是本文第一章的内容. 第二章研究不可忽略缺失数据下广义估计方程方法.本章对响应概率建立半参数Logistic模型,利用核方法对估计方程进行整体填入,修正了原估计函数,利用修正后的估计函数满足无偏性这一特征,给出了不可忽略缺失下感兴趣参数的估计,并证明了所得估计的渐近性质.模拟和实例验证了所提方法在实际应用中也是行之有效的.本章创新点在于,首先,估计结果是Zhou,Wan and Wang(2008)结果的充分推广,Zhou et.al(2008)的结果是在可忽略缺失数据条件下,而本章针对的数据类型是更复杂的不可忽略缺失,并且与Kim and Yu(2011)的结果相比,我们的方法不需要其它验证数据来估计冗余参数,这就使得问题的处理更加简单具有整体性;其次,在本章推断方法框架下,响应变量和协变量的地位是等同的,因此还可以用这种方法处理协变量有缺失,以及响应变量和协变量同时有缺失的更为一般的缺失情形;再次,对于协变量是高维的情形,提出了降维的方法;最后,当存在辅助信息时,本章还讨论了如何利用辅助信息来提高估计的效率. 第三章研究不可忽略缺失数据下带有半参数odds模型的经验似然统计推断方法.本章对响应概率提出了一类半参数odds模型,主要介绍了基于半参数odds模型的经验似然方法,作为对经验似然方法的补充和对比,简单讨论了估计方程方法,从理论上证明了两种方法所得估计都是相合和渐近正态的,但是经验似然方法所得的估计不是半参数有效估计.本章的方法是第二章内容的扩展,因为,本章提出一类半参数odds模型把半参数Logistic模型纳入其模型框架下,是半参数odds模型的一种特殊情况,同时也说明我们半参数odds模型的假设是有意义的;其次半参数odds模型可以灵活的用在可忽略缺失,不可忽略缺失等各种情形,因此,本章的创新点除了上述优点外,也包括第二章方法的创新点. 第四章在第三章的基础上进一步研究不可忽略缺失数据下的经验似然方法,是第三章研究的拓展.由前面的工作发现第三章提出的经验似然估计不是半参数有效估计,主要原因是由于数据的缺失使得原来的数据结构发生了扭曲,第三章提出的估计方程是有局限性的,由该估计方程不能得到有效的影响函数,因此经验似然估计不能达到半参有效界,这激发我们在这一章寻找新的估计方程,这个估计方程的使命就是把原本扭曲的数据结构矫正过来,从而使得经验似然估计达到半参有效界.并且在第四章我们还给出了基于对数经验似然比的检验统计量,证明了检验统计量的分布与完全数据时的结果相平行,这就为检验和构造参数的置信域带来了很大的方便.方法得到了模拟和实证分析的支持.本章的模型假设和第三章相同,自然的继承了第三章方法的创新点,特有的创新点在于由新的估计方程得到的经验似然估计是半参数有效的,并且检验统计量的分布和完全数据下熟知的结论平行. 第二章到第四章的研究结果都只针对连续的估计函数,方法对不连续函数是不适用的,例如分位数估计函数.因此在第五章将集中研究不连续估计函数的缺失数据估计方程方法,我们感兴趣的不连续函数是分位数回归函数.再者,前面章节虽然都涉及到当模型中存在辅助信息时,如何利用辅助信息来改进估计的效率,但是讨论并不完善和充分,没有形成一个系统的处理辅助信息的办法.因此,作为对前面研究结果的充实和补充,第五章讨论带有辅助信息的可忽略缺失数据分位数回归模型.本章在可忽略缺失数据,并且分位数回归模型中的随机误差是独立非同分布的假设下,给出了利用辅助信息来改进分位数回归估计效率的方法.本章利用经验似然方法,通过将辅助信息表示为数据驱动的随机权函数,将该权函数嵌入分位数回归模型中便成功将辅助信息融入估计中.从理论上证明了所得估计效率的改进,并且也证明了估计的大样本性质.通过模拟和实例验证了嵌入辅助信息的分位数回归估计在均方误差意义下比没有辅助信息的估计有显著的改进.