基于新度量的聚类算法应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:liushenglg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据收集和数据存储技术的快速进步,使得各组织机构和企业可以积累各种海量数据。然而,从这些海量数据中提取出有用的信息和未知的模式成为巨大的挑战。数据挖掘作为一门新兴技术,它结合了传统的数据统计分析方法与处理大量数据的复杂逻辑算法,引起了整个社会的极大关注。  聚类分析是数据挖掘中广泛应用的方法之一,目前很多学者对聚类度量和算法进行了大量的研究,并提出很多新颖的度量,改进了各种聚类算法,目的就是尽可能产生好的聚类效果。本文针对这一目标,首先对聚类分析的数学定义以及在聚类时所选取的各种常用度量等基础性理论作了一些相关介绍和准备。在此基础上,本文将王兴华在1982年[1]中关于生物群论和生态位相似性分析中提出的新度量和观点引入聚类分析,并将其作为一种新的相似性度量,从聚类分析和数据挖掘的角度对这一新度量做了系统性的理论研究,给出了相应的定义,并对其数学性质进行了分析,指出相对于其它一些常用的度量,该新度量的一些好的性质,并给出了理论上的证明和基于模型数据的数值结果展示。  然后本文进一步提出了基于新的相似性度量的完整的聚类算法,它不仅继承了新度量的优秀性质,同时也对凝聚层次聚类算法有了一定的改进,即它不是基于距离而是基于相似度对数据对象进行层次聚类。基于实际消费数据的实验结果表明这一算法可以得到比以往算法质量更好的聚类结果,它不但适用于高维数据集聚类,而且对噪音不敏感。
其他文献
ZigBee是一种近距离、低复杂度、低功耗、低数据速率、低成本的双向无线通信技术,主要适合于自动控制、远程控制领域及家用设备联网。本文介绍了无线网络电能管理系统的原理与
一扩大党员和群众对干部选拔任用的知情权、参与权、选择权和监督权,以建立健全选拔任用和管理监督机制为重点,以科学化、民主化和制度化为目标,改革和完善干部人事制度,是党
本文从分析当前数据中心的发展要求入手,深入剖析数据中心环境监控对各子系统的要求以及对集成平台开放性和集成性的要求。以某数据中心为例,全面展示Schneider-electricCont
本文主要研究一个与3×3矩阵谱问题相联系的非线性演化方程的Darboux变换及其精确解.首先,我们以该非线性演化方程的Lax为基础,构造了该方程所满足的Darboux变换.接下来利用已构
钢铁工业是国民经济的重要支柱产业,是衡量一个国家综合国力水平的重要指标。而高炉炼铁作为钢铁生产流程中的主要工序,其稳定性对钢铁生产而言至关重要,而高炉的炉温则是判断高
将样条基函数用以工业曲线曲面的设计过程中,关注两方面的问题。一方面要考虑样条基函数的构造,为不同类型的造型曲线设计出满足需求的样条基函数。在此基础上,如果能为不同的样
本文主要研究PT对称量子系统中的矩阵。PT对称量子系统是1998年Bender教授等人创立的一种异于经典量子系统的PT对称量子系统,他们指出非厄米的哈密顿量如果满足完整的PT对称性
本文主要研究的是Maxwell-Chern-Simons模型,并分别讨论了该模型具有自对偶结构和非自对偶结构两种不同势的情形.对于具有自对偶结构的一维情形,利用动态打靶法得到了基本控制
本文分成四章.第一章和第二章我们主要给出了关于Sobolev空间中规范正交小波的Chui-Shi型刻画定理.  第三章主要给出了Sobolev空间中Bessel序列与仿射框架新的充分条件和必
平面图G的无圈κ-边着色是指图G的一个正常的不产生双色圈的κ-边着色.G的无圈边着色指数Xa(G)为使得G有一个无圈κ-边着色的最小的整数κ.Alon等.第一个提出了关于无圈边着