论文部分内容阅读
数据挖掘是指从大量数据中提取出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级过程。其目的是从数据中抽取知识。而分类知识是反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识。从带有类别标号的事例中获取分类知识是现实中经常要解决的问题。所谓分类,就是根据确定的概念外延导出概念的内涵,以便区分新的概念外延,即能够用模型或函数预测那些类标记尚未可知的对象。因此,分类是一种有类标记指导的学习方法。迄今为止,人们已经提出很多分类算法,如决策树归纳、贝叶斯分类、神经网络、遗传算法等。作为最重要的分类方法,决策树被广泛地运用于机器学习、数据挖掘等领域之中。本文将利用容差关系的粗糙集扩展模型结合C4.5中的信息增益率概念,提出一个新的决策树构造方法。