论文部分内容阅读
粗糙集理论是一种能有效分析和处理不精确、不一致、不完整等各种不完备信息的工具,目前已广泛应用于知识发现领域。粗糙集理论能解决重要的知识分类问题,通过去除冗余对象和属性约简,使决策规则的数量尽可能少,从而达到知识约简的目的。知识约简是指在保持知识分类或决策能力不变的条件下删除其中不必要的知识,它包括属性约简和属性值的约简,属性约简是粗糙集理论的核心内容之一。本论文所探讨的只是属性约简算法中特定的一小类:基于属性重要度的属性约简算法。首先,介绍了Pawlak经典粗糙集理论的背景知识及基本理论和方法。然后,对粗糙集理论发展过程中出现的几个相关理论作了系统地介绍,包括区分矩阵、信息熵和变精度粗糙集模型,并对与之关联的基于属性重要度的属性约简算法进行了深入讨论。接下来是本文研究的重点,分析并提取出基于属性重要度的属性约简算法的共同特征,结合二进制区分矩阵和关键属性的概念提出了新的求核算法,在分析过程中发现现有的基于属性重要度的属性约简算法存在的一些问题以及引发问题的相关因素。最后,提出一种改进的基于属性重要度的属性约简算法。通过深入研究基于属性重要度的属性约简算法的特点发现,该类算法可能导致最终得到的并不是一个真正的约简即约简结果中仍然存在冗余属性,其原因如下:第一,启发式信息的选取不完备。根据粗糙集理论,论域被分为正域、负域和边界域三个部分,而所选取的启发式信息往往只考虑了约简过程中对某个区域的影响。因此,为了设计一个更加完备的算法,必须综合考虑约简过程对各个区域的影响。第二,在约简过程中根据某种启发式信息定义的属性重要度选取属性时,都假设选取到了属性重要度最大或最小的一个唯一属性。如果此时有两个或两个以上的属性满足条件,并没有采取任何选择策略。随意的选择将导致的后果是:得到的约简结果中仍然包含冗余属性。为了避免这种情况,必须采取一种新的选择策略,本论文中采取的选择策略是源于VPRS模型的思想。第三,在约简过程中发现, posB ?D ?(决策D的B正域)中的对象对之后的约简过程已经没有任何意义了,因为其它的条件属性不可能再对这些对象关于决策D的分类起到任何作用。因此,可以考虑在约简过程中逐渐删除这些对象以缩小论域,从而降低算法的空间复杂度和时间复杂度。本文的最终研究成果是为解决上述问题而设计的一个基于属性重要度的属性约简新算法,算法过程中使用的是改进的求核算法和新的属性重要度度量方式,并验证了算法的有效性。