基于模糊等价关系的数据约简方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:lovezhizunbaolove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Z. Pawlak提出的经典粗糙集理论是基于由属性诱导的不可分辨关系来进行数据分析的,数据模型中只包含符号型属性。而当前实际的信息系统中存在既包含符号型属性,也包含连续数值型属性的情况,即混合型信息系统。对符号型属性数据以及混合数据的约简是本文的主要研究内容,两者在文中都采用了同种考虑方式——将属性的约简问题转化为矩阵的构造化简问题。对于只包含符号型属性信息系统的知识约简问题,本文采用基于可辨识矩阵的约简方法。文中讨论了可辨识矩阵一般约简算法的不足,提出利用合取律来简化可辨识矩阵繁琐的构造过程,通过对属性重要性的度量,以及删除属性组合项对矩阵状态的影响程度,得到最终的约简结果,省略了可辨识函数由合取范式向析取范式传统的转化模式。对于混合数据的处理,现有文献从连续数值型属性离散化入手,用不同的符号表示多个划分的子区间,继而对形式统一的数据集约简;或是对不可分辨关系进行拓展,利用模糊粗糙集模型、遗传算法等等,模糊粗糙集模型是混合数据分析的重要模型之一,模糊等价关系的构造是基于模糊粗糙集模型的混合数据分析的关键。本文基于模糊粗糙集模型,提出一种带权的对象间相似性度量方法,克服了现有方法的局限性,并应用于模糊等价矩阵的构造,使其在等价关系的基础上进行约简。最后借助领域知识设计了基于量化知识的属性约简算法,加入领域专家的经验知识以及用户的需求偏好,有效地缩减了循环计算过程。通过对UCI机器学习数据库中5个数据集的约简验证了方法的有效性和可行性。
其他文献
随着世界经济的稳步增长和汽车价格的不断下降,近年来私人汽车的持有量显著上升。在享受汽车带来便利的同时,因交通事故而产生的问题也日益突出。据统计,由于车后盲区所造成的交
随着计算机网络技术的飞速发展和广泛应用,网络安全问题日益突出。传统的静态安全技术包括防火墙和加密技术等有一定的防卫作用,但是缺乏主动检测入侵的机制并且需要人工来实施
在P2P网络中,拓扑构造和查找是两个最核心的问题,目前最主要的P2P体系架构包括集中索引式、分布式非结构化、分布式结构化和超级节点结构四种类型。集中索引式结构查找效率较高
随着Internet技术的飞速发展,流媒体分发技术取得了长足的进步,同时,日益增加的用户、视频数据和流媒体交互式需求,也给大规模流媒体分发服务带来了新的挑战。另外一方面,随着宽带
随着计算机技术和网络技术的不断发展,传统的手工监考安排方式已不能适应发展的需要。运用计算机技术,以其运作成本低、高效、灵活的突出优势,正在走进我们的工作和生活。高
现有的模式识别方法一般应用在已知的领域,要对一个不了解的专业领域实行模式识别,必须首先获取该领域的专业知识,而这往往要耗费很多的时间和精力。本文提出了一种不依赖于专业
近年来,突破传统计算领域种种束缚的量子计算,越来越受到人们关注。一方面,随着电子器件越做越小,其功能开始受到量子效应的干扰,致使传统计算机的能力无法继续保持如Moore定律描
判定表是分析和表达决策问题的有利工具,能够将复杂的问题按照各种可能的情况全部列举出来,简明且严密。在软件测试领域,将判定表结合上因果图可以构造出一个有效的软件测试方法
随着分布式计算环境的出现和分布式应用的不断发展,发布订阅作为一种新的通信模型为分布式应用提供了松散耦合的协同工作方式。这种通信模型为通讯的各方提供了时间上、空间上
随着信息技术的快速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘技术就是为顺应这种需要发展起来的数据处理技术。分类算法是数据