论文部分内容阅读
在模型建模过程的初始阶段,大量的预测变量被引入从而形成全模型.但在实际的应用过程中,过多的预测变量和较大的模型将需要大量的计算,而且会增加参数估计的方差(variance)和均方误差(MSE),甚至导致算法不稳定或异常退出,直接影响参数估计的结果和模型的预测效果.为了简化模型和增强可预测性,将一些不重要的预测变量从全模型中剔除,从而形成简化模型(或限制模型,restricted model)在一定的正则条件下,简化模型中参数的估计是相合的.然而,当采用变量选择的模型特别需要参数估计的相合性时,稀疏性和oracle性质(如SCAD估计)仅在逐点意义下成立,这意味着它不具有一个好的全局性质.而且,对于简化模型的估计或模型选择后(post-model-selection)估计,如果一些重要变量不幸被剔除,其系数虽然近似为零但对响应变量仍然有影响,那么简化模型(亦称子模型)是误定(misspecified)的,从而对于子模型中的参数采用常用方法得到的估计将收敛于伪参数而不是真实参数值.即使选出的子模型只是局部误定,采用常用的参数估计方法得出的估计也仍然是不相合的.另一方面,在某些应用场景下,可能只对其中的部分变量及其系数感兴趣,因为这些变量是可以适当控制的.反之,可能对其余的变量并不感兴趣,或者这些剩余变量本身不容易被精确控制,或者剩余变量对响应变量的影响结构还不是很清楚.在这种情况下,如果采用全模型同样会面临上述的问题,而且可能会出现模型误定的情形.如果只将响应变量对这些感兴趣的变量进行回归分析,显然模型是有偏的,对应的参数估计也将是有偏的;如果在回归结构中,将感兴趣的变量作为参数项而将剩余变量作为非参项处理,虽然这样得到的半参回归模型相对较为合理,但是这时非参项将可能面临维数祸根问题(curse of dimensionality)特别在剩余变量的维数很高时,维数祸根问题将直接导致半参回归模型的估计结果和预测效果的损失.由于人们认识的局限性,在实际应用中更多地将会面临到这种半参情形.以上表明,在包含变量选择(variable selection)或者变量指定(variable specified)的建模过程中相合估计和置信域构造仍然是一个困难.本论文将主要研究这种情形下感兴趣参数的估计方法以及相应模型的预测.对于线性回归模型假设仅对参数β及协变量X感兴趣,本论文在第二章将提出一个半参方法以调整有偏子模型从而得到参数β的相合估计,进而进行模型预测.详细地,通过寻找一个方向T∈(?),构造出调整模型其中将有偏子模型调整为部分条件无偏,即满足采用一维非参核方法对非参项g(TTZ)进行估计如下其中K(·)是核函数,h是依赖于n的窗宽.代入调整模型后,得到参数β的估计如下其中,随后、证明了由该调整模型导出的参数估计βA在子集区域W上n1/2是相合的.进一步,基于F检验的PT估计思想,得到了还依赖于全模型的调整PT估计βAPT.在第二章第三节中基于该调整模型,采用经验似然方法构造了参数β的置信域估计.采用第二章的方法,通过一个一维的非参函数可以成功地避免维数祸根问题,而且该推断的性质对非参函数中的方向γ不敏感,所以新方法对变量选择是稳健的.无论子模型的偏大小,数值模拟结果表明在相合意义下新的参数估计和置信域优于现有方法.对于线性回归模型,第二章中提出的非参调整方法能够大幅度地减小子模型的估计偏差.但是,这个方法的理论结果仅在协变量的一个子集区域W上成立.为此,在第三章中基于子模型Y=βTX+η感兴趣参数β,我们构造了一个全局无偏的工作模型假设E(Z)=0.主要的思路是首先将协变量Z分解成相互独立的分量Z(1),...,Z(q),然后利用了协变量X和协变量Z的独立分量Z(l),l=1,…,q之问的相关性信息,对于与协变量X相关的独立分量Z(l),向子模型中增加一个一维的非参调整项gt(Z(l))=E(Y-βTX|Z(l))=γTE(Z|Z(l)),从而通过多步的非参调整来减小子模型的偏差.(1)当协变量Z为正态分布时,将采用主成分回归(PCR)方法来构造全局无偏的调整模型,此时gl(Z(l))=αlZ(l),调整模型实际上是一个线性模型其中Z(l)是Z的第l个主成分;(2)否则,将采用独立成分分析(ICA)方法,其中Z(l)是Z的第l个独立成分.基于这个调整模型,采用一维非参核方法对非参项gt(Z(l))进行估计如下其中K(·)是核函数,hl是依赖于n的窗宽.代入调整模型后,得到参数β的估计如下其中,证明了参数β的这个点估计βA在协变量X和Z的全空间上是相合的,而且它是渐近正态分布的.同时,由于增加的非参调整项gl(Z(l))之间相互独立,因此避免了一般可加模型采用后拟(backfitting)方法时所产生的大量计算,而且当调整的项数K不大时新算法的计算误差将很小.当协变量Z服从正态分布时,可以对线性调整模型直接采用最小二乘得到相应结果.当增加的非参调整项数K较大时,第三章提出的算法将会产生较大的计算误差,该方法将失去其优势.因此在第四章,更一般地对于稀疏部分线性模型提出了一个两阶段的重建模和参数估计方法.其中,参数β是我们感兴趣的,参数γ是稀疏的.为简化起见,本章中假设U是1-维变量,E(Z)=0.实际上,f(·)可推广到U是多维变量时的可加结构.详细地,在第一阶段中利用协变量Z的独立分量Z(j)与协变量(X,U)之间的相关性,按照第三章的方法将首先构造一个多步调整的全局无偏模型在第二阶段,利用Zhao和Xue(2009)提出的半参变量选择方法,在稀疏性条件下进一步对上述调整模型进行简化.具体地,对每一个非参项gj(Z(j))和非参项f(U),采用非参正交级数方法展开进行近似然后通过组SCAD(group SCAD)方法对参数β,参数0j和v进行估计,即其中,pλ(·)是SCAD惩罚函数,定义如下满足α>2,ω>0,pλ(0)=0.令Mn={1≤j≤K0:θj≠0},记Kn=|Mn|.为简化起见,假设Mn={1,2,…,Kn}.记gj(Z(j)=E(γT|Z(j),j=1,…,Kn, ζKn=Y-βTX-g1(Z((1))-…-gKn(Z(Kn)-f(U),从而得到简化模型经过两阶段重新建模,最终得到的模型是全局条件无偏的而且是充分化简的.在理论结果中,证明了基于简化模型的参数估计β及非参估计gt和f的收敛速度,并得到了估计β的渐近正态性.因为变量选择主要依赖于参数的稀疏性,当直接对部分线性模型采用变量选择方法时,一些系数非零但与X不相关的变量可能会被选入模型,这样可能会影响参数β估计的有效性和稳定性.在本论文的第五章,对于协变量和误差项均服从正态分布的高维线性模型Y=βTX+γTZ+ε,基于包含感兴趣参数β的有偏子模型Y=βTX+η,将Cho和Fryzlewicz(2012)提出的倾斜变量(tilted variables)方法和Zhang和Zhang(2012)提出的松弛投影(relaxed projection)方法有机结合从而进行重新建模.如果γTE(Z|X)≠0,则E(η|X=x)是一个非零函数.所以,首先对有偏子模型,采用Cho和Fryzlewicz(2012)的方法,将协变量Z中与X相关的分量(记为Zcx)扩充到模型中,得到一个调整模型其中(?)=ε+∑k∈Jc.Y γkZ(k),J={1,2,…,q}.然后,计算样本矩阵x对应的倾斜变量其中,Ⅱzx为到由Zcx生成的空问的投影.(1)如果倾斜变量U0的长度不太小,可直接基于倾斜变量和调整模型,得到感兴趣参数β的估计并证明了在一定条件下该估计是相合的;(2)如果存在长度很小的倾斜变量,则需要按照Zhang和:Zhang(2012)勺方法对投影进行放松.具体地,定义松弛投影后的倾斜变量其中,d=|CX|,tr(V)表示矩阵V的迹,入为惩罚参数,θ满足利用倾斜变量U,即可得到参数β的一个线性估计由于对投影进行了放松,从而需要对估计βL进行纠偏.假设(β(init),γ(init))为模型参数(β,,γ)的一个初值,满足进而,构造参数β的一个新的纠偏估计如下最后,通过该估计还可构造参数β的置信区间估计.理论结果表明,这样得到的参数β的点估计是相合的,而且其置信区间估计的覆盖率是有保证的.