论文部分内容阅读
本文首先阐述机器学习中模型选择问题的研究背景、现状,以及相关的研究工作。然后,围绕模型选择的度量、比较度量的方法和模型平均方法等方面的问题,展开论述和深入研究。本文研究内容和主要贡献包括以下几个方面:(1)提出能够描述经验ROC曲线不确定性的度量——gROC和gAUC,从理论上分析了gROC的若干性质,并利用双正态模型检验了gROC的合理性。理论和实验表明,gROC不仅考虑了得分向量的排序,而且考虑了得分及其不确定性,这使得它与其他ROC置信带方法相比,能够更好地估计真实ROC曲线。基于gROC和gAUC定义两种分类器性能评估度量——λAUC和ρAUC,这两种度量都同时反映AUC值和ROC曲线的内在不确定性。(2)利用等高线分析和秩相关分析方法,直观而清晰地探讨和比较了若干分类器性能度量。特别地,利用等高线分析,证实了分类器性能度量——wAUC在应对不平衡数据情况下的有效性。wAUC考虑代价的偏置,更加关注分类器在正类上的性能。在线性函数加权和指数函数加权情况下,绘制wAUC的等高线,探查了这两种情况下wAUC的性质。同时,通过Spearman秩相关分析,考察了wAUC与其他常见度量的相关性,结果表明wAUC与TPrate相关程度最大,适合用于不平衡数据分类器性能评估。(3)利用集成学习方法,提出一种XML文档分类算法——IL-AdaBoost。基于XML数据的动态特性,应用H-Dom模型挖掘频繁变化子结构,提出一种利用频繁变化子结构构建特征空间来表示样本空间的方法,并在特征空间上使用IL-AdaBoost算法,建立能够处理XML数据分类的集成增量学习算法。算法以XML频繁变化子结构为特征构建决策树桩,作为Boosting算法的弱分类器,改进了AdaBoost算法;利用泊松过程模拟新增XML文档的生成,反映XML文档的时变性,并更新样本分布,实现了增量学习;利用采样改善基本分类器的差异性,提高集成学习效果。本文针对分类器性能评价度量及模型平均等方面展开研究工作,分别取得了相应的研究成果,公开发表了相关论文。