论文部分内容阅读
代价敏感学习是一种新的分类学习,其目标是以获得最小测试代价和误分类代价来建立分类器。本文主要对测试代价敏感学习进行研究。测试代价敏感属性约简的目标是获得最小测试代价的约简。测试代价有限是指所能花费的最大测试代价大于最小测试代价但不大于总测试代价。对于测试代价有限的分类问题,其目标是在测试代价有限的条件下,选择更多的重要属性来保证分类的准确率。而最小测试代价约简只保留了简洁的系统信息,导致分类的准确率有所降低。针对测试代价有限的分类问题,本文主要研究以下几个方面。 首先,最小测试代价约简研究,从而得出最小的测试代价。本文提出了一种基于遗传算法的测试代价属性约简算法来求解最小测试代价约简。实验结果表明,该算法在中小数据集上可以有效地找到最小测试代价约简。 其次,带有测试代价约束的最优子约简问题研究。测试代价约束是指所能花费的最大测试代价小于最小测试代价。这意味着,在测试代价约束的条件下,只能求解能够最大程度保留系统信息的子约简。本文针对带有公共测试代价敏感决策系统的最优子约简问题设计了一个启发式算法,实验结果总体上令人满意。 第三,分类研究。分类准确率是分类技术的重要评价指标之一。本文主要对决策树(ID3)进行改进研究,提出两种不同的改进决策树。实验结果表明,这两种改进的决策树的分类准确率总体上都比ID3高。 最后,基于测试代价有限的分类问题研究。测试代价有限的属性选择至关重要,不同属性的组合,构建的分类器质量不尽相同。本文提出了两种不同的测试代价有限的属性集选择算法,并将改进的决策树分别应用于构建分类器。实验结果表明,测试代价有限的条件下,选择更多的好属性有利于保持分类准确率。同时,本文的属性集选择算法在一些数据集中可以大幅减少地测试代价。