【摘 要】
:
随着当代科学研究和技术发展的深入推进,超高维数据早已渗透到现代社会的各个领域当中.这一现状对统计学家而言既是机遇也挑战,一方面能够以低成本获取海量数据,另一方面传统的统计分析方法会因计算成本高、效率低下而不再适用.考虑到在超高维数据中仅有少数协变量与响应变量相关(稀疏性假设),统计学家开始关注并探索能够快速降低维数的特征筛选方法,试图先将数据的维度降到一般高维情形,再利用传统方法进行研究分析.而超
论文部分内容阅读
随着当代科学研究和技术发展的深入推进,超高维数据早已渗透到现代社会的各个领域当中.这一现状对统计学家而言既是机遇也挑战,一方面能够以低成本获取海量数据,另一方面传统的统计分析方法会因计算成本高、效率低下而不再适用.考虑到在超高维数据中仅有少数协变量与响应变量相关(稀疏性假设),统计学家开始关注并探索能够快速降低维数的特征筛选方法,试图先将数据的维度降到一般高维情形,再利用传统方法进行研究分析.而超高维判别分析数据作为超高维研究中的一个重要分支,在生物信息学、蛋白质组学、人脸识别、大脑图像、机器学习、社交网络分析等领域中都会有所涉及.因而,对超高维判别分析数据的特征筛选方法研究也显得尤为重要.本文从三个不同的角度,给出了针对超高维判别分析数据的特征筛选方法.首先,本文从条件分布的角度出发,构建了特征筛选指标(MS),用来处理超高维多分类数据.与现有的一系列筛选方法相比较,MS筛选方法具有以下优点.第一,不需要特定的模型假定.第二,当协变量服从重尾分布时,该指标具有较好的稳健性.第三,在相关条件的支撑下,所提出的特征筛选方法满足确定筛选性质和指标排序相合性,同时数值模拟和实例分析也进一步验证了方法的有效性.其次,本文注意到在给定类别下,倘若协变量的条件期望与无条件期望之间存在很大差异时,则认为该协变量能够影响分类结果.基于这一发现,本文利用条件方差与无条件方差的比值,提出了方差比确定独立筛选方法(VR-SIS).该方法可以直接应用于多类别情况,并且能够同时筛选出主效应和交互效应.另外,由于结构简单,计算成本也相对低廉,该方法在实际中可得到广泛的应用.本文通过蒙特卡罗模拟研究和两个实际数据分析来说明该方法适用于判别分类的有效性.最后,为研究各个协变量与响应变量之间的边际关系,本文通过考虑不同类别下协变量数值的差异来度量协变量对分类的贡献程度,若两者之间差异越大,则表明该协变量对分类影响越大.在此基础上本文构建了两分类下的无模型的Mann-Whitney特征筛选框架(MWS).进一步地,本文给出了多分类情形下的特征筛选指标.不难发现,提出的筛选方法具有模型自由的特点,而且由于协变量具有单调递增变换的不变性,该方法还可以用于研究响应变量与协变量之间的非线性关系.不容忽略的是,该方法对重尾分布具有很好的稳健性.此外,在不附加次指数尾部概率的条件下,本文建立了该方法的三种理论性质:确定筛选性质、指标排序相合性和控制错误率.本文还进行了数值模拟和实例分析,以评估筛选程序的有效性.
其他文献
在草场承包营权制度下,中国广大牧区以成立牧业合作社的模式来达到人与自然的和谐,保障牧场的草质。牧业合作社模式对进一步确保牧民收入的稳定,在市场经济当中提升牧民的自我保护能力,具有非常重要的作用。这种模式不但能够避免农村土地承包经营制度在广大牧区实施时所带来的一系列生态问题和社会问题,也同时与《民法典》所规定的土地经营权的流转相衔接,做到了“三权分置”在牧区土地承包经营制度下的成功贯彻实施。然而,放
招商引资是一个国家和地区各级政府利用其土地、劳动力、区位优势资源等自然要素,辅以税收优惠、法制情况等各级地方政府所提供的服务,吸引外部的资金、人才、技术和管理经验等生产要素到本地,以促进该地区经济实现跨越式发展和产业发展。自改革开放以来,招商引资工作对我国经济的发展起到重要的支撑和促进作用,已经成为国家和各地区经济产业结构的调整、经济的转型和升级的重要推动力和抓手,一度被国家和地方政府列为第一要事
大数据作为互联网经济蓬勃发展的进阶产物,其经济价值和社会价值正成为社会关注的热点。要使大数据发挥其商业价值,则需要对原始数据进行挖掘、开发,商业数据的经济价值得到提升,数据竞争也不断显现。在这一过程中,商业数据范围的合理界定显得尤为重要。商业数据是企业等数据权利人存储、整理的大量具有商业利用的数据,以及对海量数据进行挖掘、加工、分析后产生的具有价值的新数据,是能够为权利人带来经济利益的一种新兴资源
目的:研究二甲双胍(metformin,Met)增强维生素D3(vitamine D3,VD3)对小鼠结肠炎相关结直肠肿瘤形成的预防作用及其作用机制。方法:制备炎症相关的结直肠肿瘤(colorectal neop
原花青素是一种有着特殊分子结构的生物类黄酮,广泛存在于红酒、葡萄、蔬菜和其他水果中,具有极强的抗氧化活性,是目前国际上公认的清除人体内自由基最有效的天然抗氧化剂,具有非常强的体内生理活性,原花青素B2是其中活性最强的二聚体。秀丽线虫由于生命周期短,可重复大样本寿命实验,并且与其寿命相关的遗传和环境背景较清晰,因而非常适合进行衰老干预效果的评价和机制研究。因此本实验以模式生物秀丽线虫为研究载体,探究
无人机在民用和军事领域有着巨大的潜力和应用价值。当无人机完成任务时,相对于单无人机系统而言,多无人机协同去完成一项任务时效率更高,成本更低,无人机机群之间的协同任务需要通过自组网来实现。然而,无人机在执行任务的过程中,节点必定会不断地加入或离开无人机组成的网络,造成节点相对位置的变化,从而导致拓扑结构的高动态变化。同时无人机节点快速移动和能量有限的特性同样会给网络的设计带来很大的挑战。论文具体的内
跳频(Frequence Hopping,FH)通信作为扩频通信系统中常见的一种扩频手段,具有许多优点,例如低截获概率、优秀的保密性及抗干扰性等,它在军事通信中的通信侦察和抗干扰领域得到了广泛应用,此外,在民用通信系统中也占有一席之地。因此,对跳频信号的检测和参数估计技术方面的深入研究就显得十分重要。本文的主要内容包括跳频信号时频分析以及跳频信号参数估计,重点研究了基于扩展B分布修正(Extend
随着全球恐怖袭击事件的频繁发生,各国每年都会投入大量的人力、物力和财力用于防恐、反恐措施的制定以及实施,然而反恐成效的好坏在一定程度上取决于能否对恐怖袭击事件进行有效的分析与预测,传统基于人文社会科学的研究方法往往难以发现袭击事件之间纷繁复杂的联系。采用数据驱动的方式对近年来全球范围内的恐怖袭击事件进行量化分析,能够有效地挖掘袭击事件之间以及事件的各方面特征之间的内在联系,从而为全球防恐以及反恐方
在中国当下数之不尽的各种竞争形式中,市场经济为每一个人提供机会,拒绝特权,它是人类有史以来最平等的一种制度,其可以使某些穷人变成富人,同样可以使富人变为穷人。进而言之,在竞争自由的背景之下,个体或组织享有均等的机会创造对自己有利的营业行为。这是经营者通过积累知识或改造技术即推陈出新的过程,符合交互损害、优胜劣汰的市场竞争规律。可以看出,反不正当竞争法的立法初衷是为了实现更充分地竞争自由,因而,损害
倪树根是一位儿童文学作家,他在晚年创作了长篇小说《富春山居图》,叙写了一部当地百姓经历民国、中日战争、解放战争、新中国建立近百年变迁的历史长卷,揭示了日本侵华战争对人们造成的持久的伤害,体现了当地人心灵的善美真。本翻译实践报告以翻译文本《富春山居图》(P3—P25)为基础,结合奈达的功能对等理论,对翻译过程中遇到的困难和问题进行分析和总结,并提出相应的解决方案。这一理论要求译者在翻译过程中注意读者