论文部分内容阅读
粗糙集理论是由Z.Pawlak提出并发展起来的一种处理不完备信息的有效工具。属性约简是粗糙集的核心内容,其目的就是要从条件属性集合去掉不必要的属性。约简后决策表和约简前决策表包含相同的信息,但条件属性的减少可以提高决策判定的效率。传统的算法在约简过程中仅仅考虑确定的记录,而忽略了那些条件属性相同而决策属性不同的冲突记录。
空间数据挖掘是指从空间数据中提取用户感兴趣的空间特征和模式、空间和非空间数据的普遍关系及其它一些隐含在空间数据中的普遍的、不易发现的知识。空间数据具有海量、高维、多源等特性,在数据测量、格式转换、网络传输、系统集成和空间分析等环节都可能由于误差、遗漏等原因带来数据的不确定性,因此不可避免地存在冲突记录等数据不一致现象。使用传统的属性约简算法对空间信息进行约简,仅仅考虑确定的记录是不合适的,因为从决策表中首先筛选确定记录本身会就带来预处理代价高、部分信息丢失等问题,导致系统适应能力下降。如何使得冲突记录参与数据挖掘过程,同时考虑确定及冲突记录,从而改善对空间数据处理的适应性,是值得探讨的问题。
本文首先提出了基于决策表确定性的属性约简算法,解决了决策表中冲突记录在以往的算法中被忽略的现象,适合于处理存在冲突记录的数据集合。通过与基于可辨识矩阵的约简算法、基于特征选择的约简算法比较分析,验证了该算法的正确性和有效性。之后,将基于决策表确定性的属性约简算法应用到空间数据挖掘中,设计开发了一个基于地理信息系统(GIS)的楼盘投资适宜性分析原型系统,完整地描述了从空间数据矢量化、存储管理、规则挖掘到决策应用的全过程。系统对分布在不同图层的数据进行属性选取和空间分析,依据用户自定义的转换方法生成离散化的决策表,并利用基于决策表确定性的属性约简算法对决策表进行约简,提取出潜在的规则并用于辅助决策。系统对粗糙集在空间数据挖掘领域的应用提供一定的借鉴。