论文部分内容阅读
随着科学技术的快速发展,高维数据在很多领域中越来越常见,如生物信息学、基因组学、微列阵、蛋白质组学、经济学、金融学等。正确地选出重要的协变量,不仅能提高模型的解释性,还能减少模型的预测误差。目前大部分的变量选择方法主要基于参数模型以及完全数据上的研究。半参数模型和非参数模型在统计建模上适用范围更广,而响应变量缺失也是科学实验或社会调查中经常出现的情况。因此我们研究半参数和非参数模型以及响应变量缺失下的变量选择问题。我们首先考虑一个扩展的单指标模型的变量选择问题,随后考虑超高维数据下,广义变系数模型的变量筛选研究。最后,我们考虑响应变量随机缺失下,无模型假定的变量筛选和均值推断问题。主要内容如下: (1)研究扩展的单指标模型的变量选择问题。提出了一种惩罚的估计方程,得到了稀疏解。在一定的条件下,证明提出的估计的具“Oracle”性质。随后,我们用BIC准则选择调整参数,该方法具有选择相合性。最后,提出一种新的算法,用于解决计算问题。 (2)研究协变量的维数p远大于样本量n,即p>>n下,广义变系数模型的变量筛选问题。提出一种基于局部边际相关性度量的排序方法,用于对协变量的贡献度进行排序,从而筛选重要变量。在一定的条件下,证明这种排序方法具有“排序相合性”,并研究了估计的渐近性质和有限样本性质。 (3)研究p>>n时,响应变量随机缺失下,无模型假定的变量筛选问题。我们深入地研究这个问题,证明了响应变量与缺失指示变量的乘积对应的重要变量集包含响应变量的重要变量集,并提出了“零插补变量筛选”方法、“文氏图变量筛选”方法等技术,将缺失数据下无模型假定的变量筛选问题转化为完全数据下的无模型假定变量筛选问题。并且,我们证明以上提出的变量筛选方法具有“确定筛选性质”。 (4)研究响应变量缺失下的均值估计问题。当协变量的维数较高时,一般的均值估计方法存在“维数祸根”问题,或者需要模型假定。我们利用充分降维技术计算中心均值子空间,将降维后的低维空间作为新的空间,并用核估计方法估计响应变量的均值,避免了“维数祸根”问题,还不需要做任何的模型假定。并且,我们证明了所提出估计达到了最优效率,即半参有效下界。