论文部分内容阅读
决策树是解决分类问题最有效的方法之一。该技术通过构造树来建立分类处理模型。如何构造健壮有效的决策树,仍然是决策树模型研究与应用中所面临的一项挑战。
对于决策树模型,一般而言,可以依据预测准确率、速度、健壮性、可伸缩性和可解释性等标准对其进行比较和评估。在众多决策树模型中,实验研究证实,J.R.Quinlan的C4.5决策树模型很好满足了上述的比较和评估指标,而且还是驻留内存分类算法中,提供较高预测准确率及较高效率的分类器模型,因此得到业界的普遍肯定,常常作为分类问题研究与分析的参考基准。
在对C4.5决策树模型进行详细分析后,不难发现C4.5尽管在速度与预测精度等方面占有优势,但在构造一棵较小的树方面却处于劣势。针对C4.5决策树的固有不足,如存在空枝问题、易于形成过度拟合等,该文提出了一种健壮有效的决策树改进模型:R-C4.5决策树模型。该模型基于C4.5决策树模型,但在分枝过程中,合并信息熵值较高的部分分枝。根据熵的定义,熵值越大,子集划分的纯度越小,R-C4.5将那些对划分无贡献的分枝合并,有效减少了无意义的分枝,避免了碎片问题,控制了树的大小,提供了较高的预测准确率。并且,R-C4.5决策树模型自然解决了倾向选择具有较多值的属性作为测试属性的问题。该文还提出了R-C4.5决策树模型的优化版本R-C4.5c和简化版本R-C4.5s。
为了验证R-C4.5的健壮有效性,该文从数据挖掘研究者经常使用的UCI数据库中选择了8个数据集进行说明比较。这8个数据集的样本数从数百条到三万多条不等,可以体现R-C4.5在不同数量级别数据集上的分类能力。实验证明R-C4.5是一个对大多数数据集而言更简单、更有效的决策树模型。
与C4.5相比,R-C4.5生成的树在健壮性方面有了明显的提高,R-C4.5有更加强壮的根部和更加粗壮的分枝,减少了出现过度拟合的可能。通过对缺失数据的灵敏度分析,实验发现随着数据集中缺失数据比率的增加,相对于C4.5,R-C4.5对缺失数据不敏感,预测准确率的下降趋势较C4.5缓慢,这也从另一个方面证实了R-C4.5是一个健壮有效的决策树模型。
该文还成功地将研究结果运用在临床医疗数据和电信数据的探索性数据分析中,对住院病人的住院持续时间以及电信业客户流失状况进行了预测。