论文部分内容阅读
随着信息技术的飞快发展,信息系统中积累了大量数据,急需一种有效处理信息的工具,可以在海量数据中提取、挖掘出隐含在背后的不为人知的、可为人们所用的、有价值的知识。1982年粗糙集理论作为一种处理模糊和不确定数据的新型数学工具被提出,粗糙集理论的重要特点是直接从给定问题的描述出发,不需要任何先验知识,保持分类不变的前提下,导出概念的分类规则。经过30年的研究,已经在理论和实践上都取得了巨大的进步,已成为使用最广泛使用理论之一。粗糙集理论中模型和属性约简是当今研究的两个热点。由于经典粗糙集模型和传统的属性约简算法已经满足不了现实的需求,无论是在模型构建,还是在算法改进方面,很多学者都做了不同程度的研究。但提出更合理的分类模型、处理海量数据的高效属性约简算法仍面临着巨大的挑战。本文分别从模型构建和属性约简两个方面做了深入研究,主要的研究成果包括:(1)在以往提出的模型基础上,针对存在的缺陷,在k度限制相容关系的基础上提出了一种改进的粗糙集模型,基于距离的二元关系模型,即距离关系模型。吸取了k度限制相容关系的阈值k的灵活性和相似关系的对称性的优点,解决了在单一属性下研究的对象的划分问题。并在等价关系三个算子的基础上研究该模型的相关性质,以实例证明该模型分类的宽松度介于相容关系和优势关系之间,分类效果优于相似关系和k度相容关系。(2)针对集值信息系统包含大量数据的问题,本文研究了一种基于β相似度的属性约简方法。在变精度关系下,将β用于约束对象间的相似度,通过β的变化调节类划分的粒度和差别矩阵的复杂度,进而进行属性约简。通过实例证明了算法的有效性、可行性,从时间复杂度空间复杂度上都验证了算法的高效性。(3)在研究了集值信息系统和知识距离性质的基础上,提出了一种基于知识距离的集值信息系统属性约简算法。该算法首先利用知识距离来描述知识间的差距,进而度量集值信息系统模型的分类效果和知识粒度,然后根据知识距离的性质有效的判定集值信息系统模型的宽松度和属性重要性。最后通过理论分析和实验的结果表明,该算法降低了时空复杂度,从而提高了算法的运行效率。