基于最大边际效用的超高维特征筛选方法

来源 :统计与决策 | 被引量 : 0次 | 上传用户:liongliong602
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
超高维数据判别分析的变量筛选是研究热点之一,样本比例不平衡会对变量筛选产生较大影响.文章从条件分布函数的标准化C-v-M距离出发,构建了基于最大类边际效用的特征筛选方法SAD-SISI;研究了该方法的确定筛选性质和排序的一致性,并通过数值模拟验证了该方法的有效性.研究结果表明,SAD-SIS是模型自由的,不需要在特定模型结构假设条件下,满足确定筛选性质.因此,SAD-SIS能够应对样本量n和维数p满足log(p)=nγ的超高维特征筛选问题.模拟结果显示,SAD-SIS对厚尾数据具有较好的稳健性.同时,SAD-SIS能有效降低样本比例不平衡给变量筛选带来的影响.
其他文献
幂律特征是自然科学与社会科学领域的一种常见现象,这种现象不仅表现在现象的上尾部分,也会表现在现象的下尾部分,与帕累托分布能够反映现象的上尾特征一样,反向帕累托分布则
发达国家制造业回流和后发国家快速追赶背景下的中国制造业面临极大的生存压力,培育世界级制造业创新生态系统是中国制造业实现高质量发展的关键。本文在文献分析的基础上,明晰世界级制造业创新生态系统的内涵,探索世界级制造业创新生态系统的研究框架,从顶层设计、产业规划和企业战略等方面提出对策建议,为我国培育世界级制造业创新生态系统提供理论基础。
统筹编制改革是党中央基于新时代提出的重要要求,应当结合结构优化、存量盘活与资源整合等关键点,对地方统筹编制资源、进行编制统筹分配的经验和教训进行观察,明确编制作为
地图地址抽样方法因其对调查总体的有效覆盖而在国内外大型社会调查中得到了充分应用,提高 了抽样精度和调查数据质量,但该方法的具体执行相对复杂、成本较高,在覆盖率和灵活
文章以减小检验犯第一类和第二类错误的概率为主要目标,在泊松过程强度函数存在尖点时修正渐进显著性检验.通过修正似然函数,建立修正极大似然检验和修正Wald检验,并将上述检
随着科学技术的发展,高维成分数据广泛出现在医学和经济学等领域且收集越来越方便,惩罚方法是解决高维数据变量选择问题的重要方法.目前关于成分数据变量选择的研究主要基于
为了更加准确地刻画时间序列的长记忆性和厚尾性,文章建立了带有分数布朗运动增量平方项的GARCH模型,分析了模型的统计性质,给出了模型平稳解和各阶矩存在的条件,对模型的尾
经济全球化背景下,世界经济整体性趋势显著增强,金融危机对各国经济发展的消极影响也被放大.从经济结构层面看,金融危机的出现与金融业过度自我膨胀、实体经济萎靡有关.各国
期刊
目前定量敏感问题所用调查方法需使用随机化装置从而需要在现场实施.为此,文章充分利用大数据资源作为辅助信息,将分层抽样方法与不需要随机化装置的技术结合,实施精度最高的
文章从群体效用和均衡效用的角度比较了多指标综合评价中的四种平均合成方法,并在此基础上提出了一种新的合成方法.实证分析结果显示:均衡效用对几何平均和调和平均具有正效