论文部分内容阅读
随着数据收集和数据存储技术的快速进步,使得各组织机构和企业可以积累各种海量数据。然而,从这些海量数据中提取出有用的信息和未知的模式成为巨大的挑战。数据挖掘作为一门新兴技术,它结合了传统的数据统计分析方法与处理大量数据的复杂逻辑算法,引起了整个社会的极大关注。 聚类分析是数据挖掘中广泛应用的方法之一,目前很多学者对聚类度量和算法进行了大量的研究,并提出很多新颖的度量,改进了各种聚类算法,目的就是尽可能产生好的聚类效果。本文针对这一目标,首先对聚类分析的数学定义以及在聚类时所选取的各种常用度量等基础性理论作了一些相关介绍和准备。在此基础上,本文将王兴华在1982年[1]中关于生物群论和生态位相似性分析中提出的新度量和观点引入聚类分析,并将其作为一种新的相似性度量,从聚类分析和数据挖掘的角度对这一新度量做了系统性的理论研究,给出了相应的定义,并对其数学性质进行了分析,指出相对于其它一些常用的度量,该新度量的一些好的性质,并给出了理论上的证明和基于模型数据的数值结果展示。 然后本文进一步提出了基于新的相似性度量的完整的聚类算法,它不仅继承了新度量的优秀性质,同时也对凝聚层次聚类算法有了一定的改进,即它不是基于距离而是基于相似度对数据对象进行层次聚类。基于实际消费数据的实验结果表明这一算法可以得到比以往算法质量更好的聚类结果,它不但适用于高维数据集聚类,而且对噪音不敏感。