机器学习中的模型选择问题研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:gaofei23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先阐述机器学习中模型选择问题的研究背景、现状,以及相关的研究工作。然后,围绕模型选择的度量、比较度量的方法和模型平均方法等方面的问题,展开论述和深入研究。本文研究内容和主要贡献包括以下几个方面:(1)提出能够描述经验ROC曲线不确定性的度量——gROC和gAUC,从理论上分析了gROC的若干性质,并利用双正态模型检验了gROC的合理性。理论和实验表明,gROC不仅考虑了得分向量的排序,而且考虑了得分及其不确定性,这使得它与其他ROC置信带方法相比,能够更好地估计真实ROC曲线。基于gROC和gAUC定义两种分类器性能评估度量——λAUC和ρAUC,这两种度量都同时反映AUC值和ROC曲线的内在不确定性。(2)利用等高线分析和秩相关分析方法,直观而清晰地探讨和比较了若干分类器性能度量。特别地,利用等高线分析,证实了分类器性能度量——wAUC在应对不平衡数据情况下的有效性。wAUC考虑代价的偏置,更加关注分类器在正类上的性能。在线性函数加权和指数函数加权情况下,绘制wAUC的等高线,探查了这两种情况下wAUC的性质。同时,通过Spearman秩相关分析,考察了wAUC与其他常见度量的相关性,结果表明wAUC与TPrate相关程度最大,适合用于不平衡数据分类器性能评估。(3)利用集成学习方法,提出一种XML文档分类算法——IL-AdaBoost。基于XML数据的动态特性,应用H-Dom模型挖掘频繁变化子结构,提出一种利用频繁变化子结构构建特征空间来表示样本空间的方法,并在特征空间上使用IL-AdaBoost算法,建立能够处理XML数据分类的集成增量学习算法。算法以XML频繁变化子结构为特征构建决策树桩,作为Boosting算法的弱分类器,改进了AdaBoost算法;利用泊松过程模拟新增XML文档的生成,反映XML文档的时变性,并更新样本分布,实现了增量学习;利用采样改善基本分类器的差异性,提高集成学习效果。本文针对分类器性能评价度量及模型平均等方面展开研究工作,分别取得了相应的研究成果,公开发表了相关论文。
其他文献
对大容量发电机现场进相试验情况进行了总结,研究了影响发电机进相运行的因素。并着重分析了影响广西某660MW机组进相深度的原因。并提出了解决方案,为具有同类问题的机组提
2006年.是国家“十一五”的开局之年,是东风集团海外上市的第一个财政年度,在市场竞争异常激烈的情况下、东风的各项事业取得了新的进展。截止11月底.全集团产销规模和销售收入稳
利用吸附性矿物膨润土来制备控释肥料是当前农业生产和环境保护领域的重要课题.采用钠基膨润土作为包裹剂,以正硅酸乙酯(TEOS)黏结保护层,将氮、磷、钾肥在不同分散剂中进行
规模较小的中小型企业是目前中国国民经济发展以及社会发展的非常重要的力量,大力促进中小规模企业的发展,是现阶段保持国民经济又稳又快发展的重要基础,也是关系到民生和社
高中生作为一个消费群体而言,在消费上呈现出追求潮流、追求品味的特征。但是,高中生在经济方面并不独立,个人的辨别能力不是很强。在这一实际的背景之下,引导高中生树立正确
通过某高层建筑住宅楼厨房、卫生间施工过程中存在的施工质量问题,详细剖析厨房、卫生间渗水的原因及控制,同时提出预防措施以及施工注意事项。
<正>古书《乐记》中有这样一句话"凡音之起,由人心生也。情动于中,故形于声。"意思就是说:一切音乐都产生于人的内心,情感在心中激荡,便通过声音表现出来。由此可见,音乐是表
理财是指通过对财富有效管理而提高财富效能的过程,同时也是对人生的一种重要规划。高中是形成消费观念和理财观念的重要阶段,目前高中生理财观念尚不成熟,本文通过对高中生
阐述了美丽胡枝子的生物学、生态学特性,介绍了美丽胡枝子(Lespedeza formosa(Vog.)Koehne)的繁殖技术及其在受损山体边坡和片蚀粗骨土等困难立地中的造林技术与造林效果。
轮式工程机械机动性好、工作高效,在各类工程项目中的物料挖掘、搬移、吊装等方面有着广泛地使用。因此,近年来越来越多的技术人员开始关注轮式工程机械的研究。轮式工程机械