基于决策表确定的属性约简算法及其在空间数据挖掘中的应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ldw521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是由Z.Pawlak提出并发展起来的一种处理不完备信息的有效工具。属性约简是粗糙集的核心内容,其目的就是要从条件属性集合去掉不必要的属性。约简后决策表和约简前决策表包含相同的信息,但条件属性的减少可以提高决策判定的效率。传统的算法在约简过程中仅仅考虑确定的记录,而忽略了那些条件属性相同而决策属性不同的冲突记录。   空间数据挖掘是指从空间数据中提取用户感兴趣的空间特征和模式、空间和非空间数据的普遍关系及其它一些隐含在空间数据中的普遍的、不易发现的知识。空间数据具有海量、高维、多源等特性,在数据测量、格式转换、网络传输、系统集成和空间分析等环节都可能由于误差、遗漏等原因带来数据的不确定性,因此不可避免地存在冲突记录等数据不一致现象。使用传统的属性约简算法对空间信息进行约简,仅仅考虑确定的记录是不合适的,因为从决策表中首先筛选确定记录本身会就带来预处理代价高、部分信息丢失等问题,导致系统适应能力下降。如何使得冲突记录参与数据挖掘过程,同时考虑确定及冲突记录,从而改善对空间数据处理的适应性,是值得探讨的问题。   本文首先提出了基于决策表确定性的属性约简算法,解决了决策表中冲突记录在以往的算法中被忽略的现象,适合于处理存在冲突记录的数据集合。通过与基于可辨识矩阵的约简算法、基于特征选择的约简算法比较分析,验证了该算法的正确性和有效性。之后,将基于决策表确定性的属性约简算法应用到空间数据挖掘中,设计开发了一个基于地理信息系统(GIS)的楼盘投资适宜性分析原型系统,完整地描述了从空间数据矢量化、存储管理、规则挖掘到决策应用的全过程。系统对分布在不同图层的数据进行属性选取和空间分析,依据用户自定义的转换方法生成离散化的决策表,并利用基于决策表确定性的属性约简算法对决策表进行约简,提取出潜在的规则并用于辅助决策。系统对粗糙集在空间数据挖掘领域的应用提供一定的借鉴。
其他文献
伴随着互联网数据爆炸式地增长,各种类型的数据以流的形式源源不断产生。静态数据上的挖掘技术已不能满足现实问题分析的需要,应运而生了各种数据流挖掘技术,同时数据流挖掘
随着网络技术的飞速发展,信息快速增长与人们个性化需求的矛盾在不断地增加,而Web用户访问路径聚类正是解决这一矛盾的有效手段之一。通过对Web用户访问路径聚类,可以发现用户兴
随着计算机技术的飞速发展,计算机信息安全问题越来越受关注。无论是电子商务、电子政务、企业信息平台都存在来自系统内外的安全威胁。信息安全已经成为信息时代高度受关注的
模式识别方法已经成功地应用到大量的目标识别任务中,其中人脸识别已成为模式识别和计算机视觉领域的一大研究方向。近年来的研究成果表明,人脸图像很可能位于一个非线性流形上
科学技术和工业生产的发展,对质量要求越来越高。五十年代以来,火箭、人造卫星、宇宙飞船等大型、复杂、精密的产品出现,对产品的安全性、可靠性、经济性等要求越来越高,因此产品
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互(Human Computer Interaction,HCI)技术已成为当前计算机科学领域一个十分活跃的研究课题。针对移动地理信息系
网格是继Internet和Web技术之后又一次重大的科技变革。在网格计算环境中,任务调度是影响系统性能和服务质量的关键问题之一,已经被证明是一个NP完全问题,所以它引起了众多学
核苷酸多态性(Nucleotide Polymorphisms)是人类基因变异中常见的变异形式,包括单核苷酸多态性(Single nucleotide Polymorphisms,SNPs)和多核苷酸多态性。其中,单核苷酸多态性
自动问答系统综合应用各种自然语言处理技术,允许用户以自然语言的形式提问,返回给用户明确的答案。限定领域问答系统针对特定的领域,例如金融、教育、旅游等,由于面向范围有限,具
随着互联网规模不断扩大,新应用不断涌现,万兆网络技术也得到迅速发展,为保证万兆网络的服务质量,对其性能进行监控和管理显得非常重要。同时对网络流量特征的研究,是网络行为分析