论文部分内容阅读
本文的研究工作主要围绕两个主题展开:进一步论述和完善了云模型;着重对数据挖掘中的关联规则进行了研究。创新点包括以下几个方面:
●从数据中产生概念是数据挖掘中属性归纳和概念提升的关键问题。用云模型表达定性概念语言值,从数据中产生概念也就是如何从数据中获取语言值对应的云模型的数字特征值的问题。由某一属性的多个属性值生成定性概念语言值,比较理想的做法是:产生多少个语言值云模型一般由用户给定,而这些云模型的数字特征值应通过分析数据得到,无需人工给出每个云模型的数据特征值。而采用聚类方法可以比较客观给出并可验证用户确定的定性概念语言值的合理性,能反映数据库中数据的实际分布;在此算法基础上提出进一步采用正态云的逆向云挖掘算法,由此算法挖掘得到的规则同其它算法相比,由于采用了语言值,因而具有较好的可理解性和有效性。
其它方面包括:
●对云模型的特点进行了阐述,讨论了云模型与统计、模糊之间的区别与联系、概念的可还原性、正态云三个数字特征的含义及相互关系等问题。
全文的内容是这样组织的:
第一章主要介绍数据挖掘的基本概念、研究内容、发展现状及面临的问题与今后的发展方向;
第二章对云模型进行了深入系统的研究,研究了基于云模型的不确定性推理等的理论和方法,给出了各种云发生器算法以及所有的基于云发生器的不确定性推理算法,并且通过实例对云模型、模糊、统计进行了比较,讨论了它们之间的联系与区别,对云的可还原性,即概念的可还原性进行了深入的讨论,并通过实验说明了它们之间存在的内在联系。最后对正态云的三个数字特征及正态云的普适性进行了讨论。
第三章介绍了聚类的目的和重要性,然后给出了衡量一个聚类算法好坏的判别标准,最后介绍了当前数据挖掘中主要的聚类方法,并对它们聚类的基本思想进行了阐述,指出了各自的长处和缺点。
第四章介绍了运用云模型及聚类算法,针对具体的实例,给出了规则提取的过程及实验结果。并分析了实验结果,得出结论。
第五章是对全文的总结以及对今后研究工作的展望。