论文部分内容阅读
作为数据挖掘的一个重要研究领域,分类有着非常广泛的应用前景.判定树是分类中常用模型之一,自从被提出以来已经得到广泛的研究和应用.然而,由于其不能很好地处理空缺值和连续值以及在知识表达上的不精确性和复杂性等问题,使判定树的研究继续是人们关注的热点.为表示概念的不确定性,云模型被提出,它有机地结合了模糊性和随机性,实现了定性语言值与定量数值间的不确定性转换;另一方面,在不完备信息系统中,人们对经典粗糙集进行了扩展,提出了特性关系粗糙集模型,它能有效地处理空缺值.本文以云模型和基于特性关系的粗糙集扩展模型为基础,对分类挖掘中若干关键问题进行了深入研究.主要工作如下:1.提出特性关系下粗糙集中概念的上下近似的增量更新方法和规则提取方法.并通过系列实验对该方法做了性能分析,结果表明该方法确实可以有效地动态支持属性推广和提取规则.2.对云模型作了讨论,包括云模型的概念、云模型的理论基础和用来离散化连续属性的云变换等.3.提出基于云模型和粗糙集扩展模型的一个新的判定树算法DTCCRS,该算法首先利用云变换离散化连续属性,再选择能够使得特性关系下加权平均粗糙度最小的属性作为当前结点的分裂属性,然后递归下去直至判定树终止生长.实验表明,该算法可妥善处理空缺值、合理离散连续属性.与C5.0相比,该算法得到的判定树不但结构简单、分类准确率高,而且分类规则也容易理解.