论文部分内容阅读
粗糙集理论是八十年代初由波兰学者Z.Pawlak提出的一种处理不精确、不确定性知识的数学工具。由于其近年来在机器学习、模式识别、决策分析、过程控制、数据库知识发现、专家系统等领域的成功应用,越来越受到各领域专家的广泛关注。属性约简和规则提取是粗糙集理论的核心内容,研究基于粗糙集理论的属性约简和规则提取方法具有十分重要的理论意义和实际意义。
属性约简和规则提取在信息系统的处理中占据了重要的位置,在信息系统的处理过程中,提出一种高效简便的属性约简和规则提取算法可以极大提高数据挖掘的效率,并得到尽可能符合我们需要的知识。本文利用不完备信息系统的特点及其与经典集合论中相关理论的相通性,将前人所提出的覆盖粗糙集理论进一步发展深化,同时兼顾经典粗糙集理论和经典集合论的优点,提出一种新的基于覆盖粗糙集理论的不完备信息系统中的数据挖掘方法。
论文主要内容包括以下几个方面:
(1)分析了粗糙集理论的研究现状,并对各种方法的优缺点进行了比较;
(2)针对信息系统的属性约简和属性值约简提出了一种基于覆盖粗糙集理论,利用最大一致块技术进行信息系统约简的算法。该算法首先利用william Zhu提出的最大一致块技术对原始信息系统进行属性约简,去除冗余属性,然后在此基础上利用覆盖粗糙集理论对信息系统进行属性值的约简。实例表明该算法简单易行,并能极大程度的去除原始信息系统中的冗余信息,从而得到尽可能简化的信息系统,以简化后继的规则提取工作。
(3)在规则提取部分,首先利用前面所提到的属性约简和属性值约简技术去除决策表中的冗余信息,从而得到最简的决策表。同时,提出“基本规则集”的概念,并利用覆盖粗糙集的相关理论证明决策表中的所有规则都可以由基本规则集得到。