论文部分内容阅读
粗糙集理论在处理不完备、不精确、不一致等各种不确定数据方面具有明显优势,越来越多地被用来作为数据分析的工具。当前,随着海量动态数据的不断涌现,数据的不完备、动态变化的特征愈加明显,不完备信息系统的增量式知识约简对于不完备动态数据的处理具有十分重要的意义。根据不完备决策表是否进行数据补齐,本文从两个思路出发对不完备动态数据进行知识约简,主要工作体现在三个方面:(1)不完备信息系统的数据补齐目前,基于粗糙集的数据补齐方法,大多都是通过计算信息系统中具有缺失值的对象与无缺失值的对象之间的相似性,然后选取相似性最大的对象的属性值来补齐缺失的数据。这类算法的问题在于:计算对象之间的相似性时所有条件属性对于决策属性的重要性被认为是相同的,忽略了条件属性间的差异性。鉴于此,引入了模糊加权相似的概念,根据每个条件属性的重要性以及决策属性对条件属性的依赖度,计算对象间的相似性,提出基于模糊加权相似性度量的粗糙集数据补齐方法,并通过实例计算以及与现有算法的比较分析,验证了方法的有效性。(2)基于数据补齐的不完备信息系统增量式属性约简决策表数据的动态变化要求约简结果不断更新,如何在保证得到最简约简结果的同时进一步提高属性约简的效率仍然是备受关注的热点问题。针对补齐后的决策表,首先提出了一种改进的决策表化简算法,得到一个和原决策表等价的简化决策表,在此基础上,综合正区域和差别矩阵两种思想并充分利用原决策表的约简结果,提出了一种仅仅存储由新增对象所产生的差别元素的增量式属性约简算法,实例计算结果表明,该算法能在原决策表约简结果的基础上快速更新数据动态变化后的决策表属性约简结果。(3)基于限制容差关系的不完备信息系统增量式属性约简经典粗糙集理论主要是针对完备的信息系统,并且是建立在不可分辨这种等价关系之上的,这种严格的等价关系划分方法对数据的完整性和精确性要求很高。然而当今的数据处理中常常会存在数据不完备且动态增长的现象。本文在分析现有的粗糙集扩展模型的基础上,基于限制容差关系,提出一种基于正区域的不完备决策表增量式属性约简算法,实例与实验结果表明,该算法能在原决策表约简结果的基础上快速得到动态更新属性的约简结果。