半参数和非参数变量选择及降维技术的一个应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：caifubaguoguo

【摘要】

：

随着科学技术的快速发展，高维数据在很多领域中越来越常见，如生物信息学、基因组学、微列阵、蛋白质组学、经济学、金融学等。正确地选出重要的协变量，不仅能提高模型的解释性，还

【作者】

：

李永进

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

高维数据半参数模型非参数模型变量选择充分降维缺失数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科学技术的快速发展，高维数据在很多领域中越来越常见，如生物信息学、基因组学、微列阵、蛋白质组学、经济学、金融学等。正确地选出重要的协变量，不仅能提高模型的解释性，还能减少模型的预测误差。目前大部分的变量选择方法主要基于参数模型以及完全数据上的研究。半参数模型和非参数模型在统计建模上适用范围更广，而响应变量缺失也是科学实验或社会调查中经常出现的情况。因此我们研究半参数和非参数模型以及响应变量缺失下的变量选择问题。我们首先考虑一个扩展的单指标模型的变量选择问题，随后考虑超高维数据下，广义变系数模型的变量筛选研究。最后，我们考虑响应变量随机缺失下，无模型假定的变量筛选和均值推断问题。主要内容如下:　　(1)研究扩展的单指标模型的变量选择问题。提出了一种惩罚的估计方程，得到了稀疏解。在一定的条件下，证明提出的估计的具“Oracle”性质。随后，我们用BIC准则选择调整参数，该方法具有选择相合性。最后，提出一种新的算法，用于解决计算问题。　　(2)研究协变量的维数p远大于样本量n，即p＞＞n下，广义变系数模型的变量筛选问题。提出一种基于局部边际相关性度量的排序方法，用于对协变量的贡献度进行排序，从而筛选重要变量。在一定的条件下，证明这种排序方法具有“排序相合性”，并研究了估计的渐近性质和有限样本性质。　　(3)研究p＞＞n时，响应变量随机缺失下，无模型假定的变量筛选问题。我们深入地研究这个问题，证明了响应变量与缺失指示变量的乘积对应的重要变量集包含响应变量的重要变量集，并提出了“零插补变量筛选”方法、“文氏图变量筛选”方法等技术，将缺失数据下无模型假定的变量筛选问题转化为完全数据下的无模型假定变量筛选问题。并且，我们证明以上提出的变量筛选方法具有“确定筛选性质”。　　(4)研究响应变量缺失下的均值估计问题。当协变量的维数较高时，一般的均值估计方法存在“维数祸根”问题，或者需要模型假定。我们利用充分降维技术计算中心均值子空间，将降维后的低维空间作为新的空间，并用核估计方法估计响应变量的均值，避免了“维数祸根”问题，还不需要做任何的模型假定。并且，我们证明了所提出估计达到了最优效率，即半参有效下界。

其他文献

如何上好一节生物课

素质教育是一种全新的教育观念和教育思想,教师和学生也不再是简单的授与受的关系,而是以提高学生整体素质为目标,以学生为主体,充分激发学生的自主学习意识,挖掘学生的内在

期刊

最优消费投资的动态经济模型

学位

关于共轭梯度法的一些新结果

该文的主要内容分两部分:1.证明了由Fletcker-Reeves共轭梯度法控制的三类无约束优化算法的全局收敛性;2.提出了具有四个参数的一族共轭梯度法并证明了其中几个子族的全局收

学位

共轭梯度法全局收敛性无约束优化大规模优化线性搜索

CONFORM连续挤压变形上限分析

学位