粗糙集理论中的约简算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:liongliong451
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘(Data Mining)引起了信息产业界的极大关注,其主要原因是数据海洋的日益增大,我们需要新技术将海量数据转化为有用的信息和知识。分类是数据挖掘的主要任务之一,分类的目的是要建立区分数据对象的模型,以便能够使用模型预测类标记未知的数据对象。主要的分类方法有决策树、贝叶斯分类、支持向量机、神经网络、遗传算法、粗糙集等等。粗糙集(Rough Set)理论是波兰数学家Z.Pawlak于1982年提出的,是一种新的处理含糊性(Vagueness)和不确定性(Uncertainty)问题的数学工具,粗糙集理论的主要优势在于它不需要关于数据的任何预备的或额外的信息。高效的约简算法是粗糙集理论应用于数据挖掘与知识发现领域的基础,但是,已经证明求解所有约简和求解最小约简都是NP-hard问题,因此,寻求快速的约简算法仍是粗糙集理论的主要研究课题之一。本文在对数据挖掘和粗糙集约简算法进行综述之后,提出一组基于属性区分能力指数的信息系统约简算法和一组决策表相对约简算法。本文提出的算法都涉及系统的划分,系统划分的目的是为了用属性a来代替相应区域的区分元素(见图4.1),从而减小算法搜索的空间。为了能够用属性a来代替相应区域的区分元素,要求划分时要将系统划分成属性对应的若干等价类。根据第四章所解释的算法思想,自然希望选择取值分布较均匀的、具有较多属性值的属性。本文针对信息系统和决策表分别提出区分能力指数的概念,并利用具有最大区分能力指数的属性对系统进行划分。当然,信息增益度量也倾向于取值较多且取值分布均匀的属性,但是信息增益不能很好地反映算法思想。正如定理4.2和定理5.2所指出的,取值分布较均匀的属性具有较大的区分能力;而定理4.3和定理5.3指出,当属性b是属性a的细化时,属性b的区分能力不小于a的区分能力。因此,区分能力指数是较好的系统划分启发信息。第四章首先定义了属性区分能力指数I(a)的概念,并给出I(a)的若干性质。然后提出了基于区分能力指数的信息系统划分与约简的基本算法,算法的主要思想是采用分而治之的策略,利用具有最大属性区分能力指数的属性将信息系统划分为子表,求取子表约简后,利用子表约简求解原系统的约简。本文指出该算法所得结果是信息系统的约简。通过对基本算法的分析,提出了考虑公共项的约简算法、考虑公共项和频繁项的约简算法和带有近似精度阈值的约简算法,并对相应算法的完备性进行了分析。为了进一步简化布尔函数化简的过程,当各个子表区分函数的析取范式具有公共项时,考虑公共项的约简算法只给出一个约简。这虽然会丢掉若干约简,但在分类精度容许<WP=59>的情况下,这种策略会在得到各个子表约简后,立即给出原信息系统的一个约简。类似地,当各个子表区分函数的析取范式具有频繁项时,考虑频繁项的约简算法和带有近似精度阈值的约简算法,也只给出一个约简。当然,带有近似精度阈值的约简算法是对以上算法的完善。第四章还对各个子表布尔函数的不同形式进行了较全面的讨论。第五章针对决策表定义了条件属性的区分能力指数DI(a)的概念,并给出DI(a)的若干性质。为论述方便,本文还提出了拟等价类的概念。然后提出基于区分能力指数的决策表划分与相对约简的基本算法,算法的主要思想与第四章算法思想类似,但需改动三点:(1) 划分决策表为各个拟等价类对应的子表;(2) 区分能力指数定义改为DI(a);(3) 区分函数fi按照决策表区分函数方式构建。基本算法所得结果是决策表的相对约简。最后,提出了带有近似精度阈值的相对约简算法,并对相应算法的完备性进行了分析。本章还对为何选取区分能力指数作为系统划分的启发信息,进行了讨论。第五章的最后一节给出了若干实验结果,实验结果表明,本文提出的算法有较高的效率。值得进一步研究的问题如下:本文给出的算法不具有完备性,因此,进一步的工作应考虑从理论上讨论算法所得结果的“满意程度”。另外,算法的时间复杂度主要是由于区分函数化简引起的,故区分函数化简的高效算法也是值得进一步研究的问题。
其他文献
近年来,软件开发组织纷纷对软件过程的质量管理给予高度重视,其中对软件开发项目的估算一直都是一个重要的方面。在业界推崇的CMM规范中,关于对软件组织的软件过程能力成熟度的
随着J2EE技术的快速发展与广泛应用,如今的J2EE应用服务器产品所提供的功能也越来越多,在功能日益丰富的同时,其核心内容也日趋标准化,各厂商必须遵循现有标准,在此基础上,应用服务
最佳离散信号及其设计在现代通信、雷达、声纳、制导、空间测控以及电子对抗等系统的优化设计中,扮演着越来越重要的角色,结构优良的的信号可以提高系统的抗干扰、抗截获、抗
目前,测控技术在军事、工业等控制领域中的应用已成为研究热点课题之一。 本文系统介绍了随动测控系统的基本理论,并且进一步探讨了嵌入式、实时数据库、工业以太网等关键技
  在以软交换为核心的下一代网络中,CPL作为一脚本语言引入到业务生成环境中,用于终端用户控制和描述IP电话业务。它最大的优点在于简单易用,因此特别适合于业务的个性化定制
随着计算机网络技术、多媒体技术和通讯技术的发展,视频会议的开发和应用已经成为网络应用的热点之一。视频会议系统是支持人们进行远距离实时信息交流、开展协同工作的应用系
本文研究了ABC方法中体系结构风格建模和支持工具的设计与实现,主要工作包括: (1)针对风格对于体系结构模型的指导作用,提出了一套基于风格的体系结构建模框架ABC/SAM,扩充了
.NET平台作为微软新的开发平台,其战略思想就是把所有设备通过一个全球宽带网(Internet)连接在一起,同时所有的软件都将成为在该网络上提供的一种服务。Web服务即是实现该战略
随着人类基因组计划实施的不断深入,生物学的数据信息飞速增长,如何从这些海量数据中提取有用的知识,揭示这些数据所蕴含的生物学意义,是对计算机科学的巨大挑战。从结构上来挖掘
随着校园网信息化建设的深入,对于安全方面的要求越来越高,即需要保证信息的机密性,完整性,不可否认性。而校园网中的网络应用无论是从种类,还是从数量上来看,都是非常繁多的,不可能