高维线性模型和部分线性模型的相合统计推断

来源 :山东大学 | 被引量 : 0次 | 上传用户：flurryzhang

【摘要】

：

在模型建模过程的初始阶段,大量的预测变量被引入从而形成全模型.但在实际的应用过程中,过多的预测变量和较大的模型将需要大量的计算,而且会增加参数估计的方差(variance)和

【作者】

：

曾云辉

【出处】

：

山东大学

【发表日期】

：

2013年期

【关键词】

：

部分线性模型有偏子模型半参回归相合估计主成分回归独立成分分析非参调整方法变量选择倾斜变量松弛投影惩罚最小二乘经验似然置信区域

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在模型建模过程的初始阶段,大量的预测变量被引入从而形成全模型.但在实际的应用过程中,过多的预测变量和较大的模型将需要大量的计算,而且会增加参数估计的方差(variance)和均方误差(MSE),甚至导致算法不稳定或异常退出,直接影响参数估计的结果和模型的预测效果.为了简化模型和增强可预测性,将一些不重要的预测变量从全模型中剔除,从而形成简化模型(或限制模型,restricted model)在一定的正则条件下,简化模型中参数的估计是相合的.然而,当采用变量选择的模型特别需要参数估计的相合性时,稀疏性和oracle性质(如SCAD估计)仅在逐点意义下成立,这意味着它不具有一个好的全局性质.而且,对于简化模型的估计或模型选择后(post-model-selection)估计,如果一些重要变量不幸被剔除,其系数虽然近似为零但对响应变量仍然有影响,那么简化模型(亦称子模型)是误定(misspecified)的,从而对于子模型中的参数采用常用方法得到的估计将收敛于伪参数而不是真实参数值.即使选出的子模型只是局部误定,采用常用的参数估计方法得出的估计也仍然是不相合的.另一方面,在某些应用场景下,可能只对其中的部分变量及其系数感兴趣,因为这些变量是可以适当控制的.反之,可能对其余的变量并不感兴趣,或者这些剩余变量本身不容易被精确控制,或者剩余变量对响应变量的影响结构还不是很清楚.在这种情况下,如果采用全模型同样会面临上述的问题,而且可能会出现模型误定的情形.如果只将响应变量对这些感兴趣的变量进行回归分析,显然模型是有偏的,对应的参数估计也将是有偏的；如果在回归结构中,将感兴趣的变量作为参数项而将剩余变量作为非参项处理,虽然这样得到的半参回归模型相对较为合理,但是这时非参项将可能面临维数祸根问题(curse of dimensionality)特别在剩余变量的维数很高时,维数祸根问题将直接导致半参回归模型的估计结果和预测效果的损失.由于人们认识的局限性,在实际应用中更多地将会面临到这种半参情形.以上表明,在包含变量选择(variable selection)或者变量指定(variable specified)的建模过程中相合估计和置信域构造仍然是一个困难.本论文将主要研究这种情形下感兴趣参数的估计方法以及相应模型的预测.对于线性回归模型假设仅对参数β及协变量X感兴趣,本论文在第二章将提出一个半参方法以调整有偏子模型从而得到参数β的相合估计,进而进行模型预测.详细地,通过寻找一个方向T∈(?),构造出调整模型其中将有偏子模型调整为部分条件无偏,即满足采用一维非参核方法对非参项g(TTZ)进行估计如下其中K(·)是核函数,h是依赖于n的窗宽.代入调整模型后,得到参数β的估计如下其中,随后、证明了由该调整模型导出的参数估计βA在子集区域W上n1/2是相合的.进一步,基于F检验的PT估计思想,得到了还依赖于全模型的调整PT估计βAPT.在第二章第三节中基于该调整模型,采用经验似然方法构造了参数β的置信域估计.采用第二章的方法,通过一个一维的非参函数可以成功地避免维数祸根问题,而且该推断的性质对非参函数中的方向γ不敏感,所以新方法对变量选择是稳健的.无论子模型的偏大小,数值模拟结果表明在相合意义下新的参数估计和置信域优于现有方法.对于线性回归模型,第二章中提出的非参调整方法能够大幅度地减小子模型的估计偏差.但是,这个方法的理论结果仅在协变量的一个子集区域W上成立.为此,在第三章中基于子模型Y=βTX+η感兴趣参数β,我们构造了一个全局无偏的工作模型假设E(Z)=0.主要的思路是首先将协变量Z分解成相互独立的分量Z(1),...,Z(q),然后利用了协变量X和协变量Z的独立分量Z(l),l=1,…,q之问的相关性信息,对于与协变量X相关的独立分量Z(l),向子模型中增加一个一维的非参调整项gt(Z(l))=E(Y-βTX｜Z(l))=γTE(Z｜Z(l)),从而通过多步的非参调整来减小子模型的偏差.(1)当协变量Z为正态分布时,将采用主成分回归(PCR)方法来构造全局无偏的调整模型,此时gl(Z(l))=αlZ(l),调整模型实际上是一个线性模型其中Z(l)是Z的第l个主成分;(2)否则,将采用独立成分分析(ICA)方法,其中Z(l)是Z的第l个独立成分.基于这个调整模型,采用一维非参核方法对非参项gt(Z(l))进行估计如下其中K(·)是核函数,hl是依赖于n的窗宽.代入调整模型后,得到参数β的估计如下其中,证明了参数β的这个点估计βA在协变量X和Z的全空间上是相合的,而且它是渐近正态分布的.同时,由于增加的非参调整项gl(Z(l))之间相互独立,因此避免了一般可加模型采用后拟(backfitting)方法时所产生的大量计算,而且当调整的项数K不大时新算法的计算误差将很小.当协变量Z服从正态分布时,可以对线性调整模型直接采用最小二乘得到相应结果.当增加的非参调整项数K较大时,第三章提出的算法将会产生较大的计算误差,该方法将失去其优势.因此在第四章,更一般地对于稀疏部分线性模型提出了一个两阶段的重建模和参数估计方法.其中,参数β是我们感兴趣的,参数γ是稀疏的.为简化起见,本章中假设U是1-维变量,E(Z)=0.实际上,f(·)可推广到U是多维变量时的可加结构.详细地,在第一阶段中利用协变量Z的独立分量Z(j)与协变量(X,U)之间的相关性,按照第三章的方法将首先构造一个多步调整的全局无偏模型在第二阶段,利用Zhao和Xue(2009)提出的半参变量选择方法,在稀疏性条件下进一步对上述调整模型进行简化.具体地,对每一个非参项gj(Z(j))和非参项f(U),采用非参正交级数方法展开进行近似然后通过组SCAD(group SCAD)方法对参数β,参数0j和v进行估计,即其中,pλ(·)是SCAD惩罚函数,定义如下满足α>2,ω>0,pλ(0)=0.令Mn={1≤j≤K0：θj≠0},记Kn=｜Mn｜.为简化起见,假设Mn={1,2,…,Kn}.记gj(Z(j)=E(γT|Z(j),j=1,…,Kn, ζKn=Y-βTX-g1(Z((1))-…-gKn(Z(Kn)-f(U),从而得到简化模型经过两阶段重新建模,最终得到的模型是全局条件无偏的而且是充分化简的.在理论结果中，证明了基于简化模型的参数估计β及非参估计gt和f的收敛速度,并得到了估计β的渐近正态性.因为变量选择主要依赖于参数的稀疏性,当直接对部分线性模型采用变量选择方法时,一些系数非零但与X不相关的变量可能会被选入模型,这样可能会影响参数β估计的有效性和稳定性.在本论文的第五章,对于协变量和误差项均服从正态分布的高维线性模型Y=βTX+γTZ+ε,基于包含感兴趣参数β的有偏子模型Y=βTX+η,将Cho和Fryzlewicz(2012)提出的倾斜变量(tilted variables)方法和Zhang和Zhang(2012)提出的松弛投影(relaxed projection)方法有机结合从而进行重新建模.如果γTE(Z｜X)≠0,则E(η｜X=x)是一个非零函数.所以,首先对有偏子模型,采用Cho和Fryzlewicz(2012)的方法,将协变量Z中与X相关的分量(记为Zcx)扩充到模型中,得到一个调整模型其中(?)=ε+∑k∈Jc.Y γkZ(k),J={1,2,…,q}.然后,计算样本矩阵x对应的倾斜变量其中,Ⅱzx为到由Zcx生成的空问的投影.(1)如果倾斜变量U0的长度不太小,可直接基于倾斜变量和调整模型,得到感兴趣参数β的估计并证明了在一定条件下该估计是相合的；(2)如果存在长度很小的倾斜变量,则需要按照Zhang和：Zhang(2012)勺方法对投影进行放松.具体地,定义松弛投影后的倾斜变量其中,d=｜CX｜,tr(V)表示矩阵V的迹,入为惩罚参数,θ满足利用倾斜变量U,即可得到参数β的一个线性估计由于对投影进行了放松,从而需要对估计βL进行纠偏.假设(β(init),γ(init))为模型参数(β,,γ)的一个初值,满足进而,构造参数β的一个新的纠偏估计如下最后,通过该估计还可构造参数β的置信区间估计.理论结果表明,这样得到的参数β的点估计是相合的,而且其置信区间估计的覆盖率是有保证的.

其他文献

发疹型汗管瘤1例

发疹型汗管瘤在临床中相对少见。本病例为青年女性(22岁),全身泛发黄褐色扁平丘疹,密集成片,部分融合,质较硬,对称分布,部分浸润,缓慢进行性发展,无明显自觉症状。皮损组织病

期刊

汗管瘤发疹型维A酸治疗

佛教和中国传统文化的冲突与融合

本刊去年第9期“中国传统哲学反思”专辑,引起了学术界的普遍关注。不少读者希望继续就传统哲学研究中的若干问题展开讨论。为满足广大读者的要求,我们特辟“中国传统哲学与

期刊

神不灭论因果报应论中国传统文化冲突与融合

人脑与人类自然语言─—多方位研究中的神经语言学

尝试多方位地考察神经语言学已经取得的研究成果及有待解决的诸多问题。学科间的交叉渗透促进了科学的发展。语言科学中目前尚未解决的诸多问题，如词类的划分、汉语语法体系的

期刊

神经语言学阅读障碍类自然语言多方位

自制中药酊剂洗头效果好

期刊

中药酊剂效果好

树皮在大气有机氯农药监测中应用的研究进展

有机氯农药(Organochlorine pesticides,OCPs)曾在全世界被大量使用,即使禁用多年,仍能在各种环境介质中被广泛检出,对生态环境和人体健康存在着潜在的威胁。因此OCPs的环境

期刊

有机氯农药树皮被动采样器富集特征手性

4手操作在根管治疗中的护理配合

<正>4手操作是指在口腔疾病治疗过程中,医生和护士始终采取坐位,医护双手同时进行操作、相互协调配合,进行准确平稳、迅速地传递器械、材料和其他用品,共同完成治疗。4手操作

期刊

根管疗法/护理口腔医学

清代新疆建省后的道制之研究

乾隆二十四年(1759),清朝底定新疆。随后,清朝采用军府制来治理新疆。在军府制确立的初期,它巩固了清朝在新疆的统治,促进了社会的发展。但是,军府制本身“易立而难久”,随着

学位

道制行政建制新疆四道

北京地区西瓜甜瓜栽培技术现状综述

<正>西瓜甜瓜是北京市的主要农作物,也是"221"行动计划所确定的十大优势产业。2000-2012年,平均生产面积为8 286.7 hm2左右,平均667 m2产量稳定在3 095.00kg,处于全国前列。1

期刊

北京市嫁接育苗中果型西瓜小果型西瓜小型西瓜栽培技术

薄皮甜瓜新品种‘春甜1号’的选育

‘春甜1号’是长春市农业科学院通过优良变异株‘M’系统选育的薄皮甜瓜新品种。全生育期80 d,子、孙蔓均可结瓜。果实卵圆形,果皮为白色,底部覆淡黄绿色,果面有浅纵条纹,果

期刊

薄皮甜瓜新品种‘春甜1号’变异株

分子钳人工受体研究进展

分子识别是生物体系的基本特征，并在生命活动中起中心作用．利用合成的人工受体与适当底物间的分子识别以建立化学模型或化学仿生体系对生命过程中的分子识别现象进行模拟研究是

期刊

分子钳人工受体分子识别隔离基molecular tweezer artificial receptor molecular recognition sp

高维线性模型和部分线性模型的相合统计推断

其他学术论文