符号属性数据聚类算法的研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:ufo747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,被广泛应用于金融欺诈、医疗诊断、图像处理、信息检索和生物信息学等领域。近年来,针对数值属性数据的聚类算法研究已取得了丰硕的成果。然而,在现实世界中,存在着大量的符号属性数据,由于符号属性数据缺乏固有的几何特性,不能简单地将现有的数值属性数据聚类算法应用于符号属性数据。因此,符号属性数据聚类算法的研究成为一个非常重要的研究内容,并引起了广泛地关注。本文在K-Modes和模糊K-Modes聚类算法框架下,对符号属性数据聚类算法进行了深入地研究,论文的主要研究成果如下。(1)基于粗糙集中的粗糙近似和粗糙隶属度,提出了两种新的相异测度。提出的相异测度在度量同一符号属性下两个属性值之间的差异时,克服了简单匹配差异法的不足,既考虑了它们本身的异同,又考虑了其它相关符号属性对它们的区分性。将提出的相异测度应用于传统K-Modes聚类算法中,并与基于其它相异测度的K-Modes聚类算法在UCI数据集上进行了比较,实验结果表明基于新相异测度的K-Modes聚类算法是有效的。(2)对基于频率的相异测度进行了研究,提出了一种更加适合模糊K-Modes聚类算法的相异测度。提出的相异测度充分考虑了Mode对模糊类的代表程度,将它应用于模糊K-Modes聚类算法中,并给出了基于模糊隶属度的模糊K-Modes聚类算法的收敛性证明。在UCI数据集上与传统K-Modes和模糊K-Modes聚类算法进行了比较,实验结果表明基于模糊隶属度的模糊K-Modes聚类算法是有效的。总之,本文从多种角度对符号属性数据的相异测度进行了研究,提出了新的符号属性数据聚类算法,并在UCI数据集上对算法的有效性进行了验证。本文的研究为符号属性数据的聚类分析提供了新方法与新技术,在数据挖掘和知识发现等领域有着较的应用价值。
其他文献
作为计算复杂性的一个重要分支,判定树复杂性从上世纪70年代开始就受到了广泛的关注,并且被发现和其他的理论计算机方向,比如通信复杂性,电路复杂性,布尔函数分析等有着深刻的联系
在信息时代,人们积极探索如何及时有效地从信息的海洋中获取有用的知识。数据发布作为数据交换和共享的一种有效方式已被许多机构和组织采用。但是,数据发布也带来了个人隐私以
随着邮政综合网的互连互通,网络环境下邮政应用系统的使用越米越广泛,因此探讨如何为邮政综合网的安全运行提供更好的技术保障,显得尤为必要。现有的网络安全技术有入侵检测、杀
学位
图像分割是由图像处理进入到图像分析的关键步骤,是图像工程中的一个重点和难点。目前关于图像分割已有很多成熟的算法,不同算法都有各自的优点和不足之处。由于细胞图像的特
随着控制技术、计算机技术、通信技术的飞速发展,现场总线技术正逐渐取代集散控制技术。PROFIBUS现场总线技术作为应用最为广泛的现场总线技术之一,截止至2008年8月,其安装节点
计算机辅助教学(Computer Aided Instruction,CAI)是现代科学技术在教育领域的主要应用。随着校园网络的普及,基于校园网环境下的网络多媒体学习系统逐渐成为CAI教育发展的研究
学位
随着互联网的迅猛发展,流媒体成为网络上的重要传输内容。然而,由于流媒体的先天特征,导致了流媒体商家和作者对媒体版权的权益受到侵害变得异常简单。这也正是促进DRM技术进步
随着计算技术的逐步发展,一种新的计算模式--普适计算,正从学术研究逐渐走向实际应用。普适计算环境中,各种嵌入的,移动的和固定的计算、传感设备存在于看得见或者看不见的每一个
随着互联网技术的迅速发展以及计算机用户的急剧增加,互联网已经成为人们获取信息的一项主要途径。然而互联网上很多重要的信息一般都被其它信息掩盖,人们很难从如此众多的网
自1982年波兰学者Z.Pawlak创立粗糙集以来,粗糙集受到了广大学者的普遍关注,并已经广泛地应用于模式识别、机器学习、决策分析等众多领域。目前,粗糙集在地学及遥感方面也得