基于自然邻的层次聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：qifasoft2009

【摘要】

：

数据挖掘是从大量数据中发现潜在的有价值的知识,其主要任务包括回归分析(Regression)、关联分析(Association rule learning)、分类分析(Classification)、聚类分析(Cluster

【作者】

：

程东东

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2016年期

【关键词】

：

数据挖掘聚类分析自然邻居层次聚类噪声去除

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是从大量数据中发现潜在的有价值的知识,其主要任务包括回归分析(Regression)、关联分析(Association rule learning)、分类分析(Classification)、聚类分析(Clustering)以及异常分析(Outliers detection)等。聚类分析是其中的一个重要分支。所谓聚类就是将需要处理的整个数据集划分成多个不同的类簇,使得簇内对象彼此相似,而簇间对象彼此相异。聚类分析不仅可以作为独立的数据挖掘工具对数据集进行分析,聚类后通过对相似或相异的对象进行分析(集中对某些对象进行分析),可以帮助人们有效地提取共同的特征和发现有价值的信息,还可以在使用其他算法(如特征提取、离群检测、和分类)之前,先利用聚类算法将数据集中相似的对象划分到一起,不同的对象分开。聚类分析作为一种无监督的学习方法,在计算机领域(如图像处理、计算机视觉、模式识别、机器学习等),统计分析,社会学等邻域都有较为广泛的应用。针对不同的目的、方法,很多聚类算法已经被提出。其中层次聚类算法由于其思想比较简单,且能有效帮助分析具有层次结构的实际问题,因此成为应用较为广泛的一类算法。Chameleon算法是层次聚类算法中具有代表性的一个算法。它通过构造K-最近邻图,划分和利用基于互连度和接近度的簇与簇之间的相似性度量方法对划分得到的初始子簇进行合并等操作,使得Chameleon算法在发现任意形状的簇方面更具有优势。但是Chameleon算法需要进行参数设定,如设定构造K-最近邻图时的K值,对K-最近图进行划分时的子簇大小的阈值和进行子簇合并时的相似度阈值或期望的聚类数目。针对此问题,本文将自然邻居的概念引入到层次聚类算法中。自然邻居(Natural Neighbor:NaN)是我们提出的一种新的邻居概念,与以前的K-最近邻居和?-最近邻居不同的是它是一种无尺度的邻居概念。K-最近邻居和?-最近邻居,由于其方法比较简单,而且能够较好地反映数据集的分布特征,一经提出就被广泛应用于很多的分类算法如KNN分类算法、聚类算法如Chameleon算法和DBSCAN算法、离群检测算法如LOF和INFLO中。但是K-最近邻居和?-最近邻居在使用中都需要设定参数,特别是对于一个分布结构未知的数据集,K-最近邻居中的K值或者?-最近邻居中的?应设为多少才能够反映这个数据集的结构特性,越来越成为人们需要关注的问题。自然邻居在使用过程中不需设定任何参数,而是通过在给定的数据集上不断地扩大邻域搜索范围进行自适应学习,从而得到数据集的分布特征。在自然邻居的概念下,分布在密集区域的数据对象的自然邻居数较多,而分布在稀疏区域的数据对象的自然邻居数则较少。本文将自然邻居的概念与Chameleon算法相结合,提出了一种新的聚类算法——基于自然邻居的层次聚类算法Hi-CLUBS。首先利用自然邻搜索算法构造饱和自然邻域图,并提出了一种基于模块度的图划分算法将饱和自然邻域图划分成初始子簇,然后利用一种新的基于子簇互连度和子簇接近度的相似性度量方法对划分得到的初始子簇进行合并,直到得到期望的聚类数目。通过与其他算法的对比实验证明了Hi-CLUBS算法减少了对参数的依赖,而且在发现任意形状的簇方面更具优势。针对数据集中可能存在噪声点的问题,我们考虑先去除数据集中的噪声点,然后再对其进行聚类。由此本文提出了基于噪声去除的层次聚类算法HCBNR。首先利用自然邻居计算法每个数据对象的密度,根据密度递增曲线确定密度阈值,去掉数据集中的噪声点,然后利用我们在本文提出的Hi-CLUBS算法对剩余的数据集进行聚类。通过与DBSCAN、Chameleon、cluster_dp等算法进行对比,证明了HCBNR算法能够快速识别数据集中的噪声点,并对数据集中的非噪声点准确聚类。

其他文献

多核集群上的高性能MapReduce平台的研究与实现

高性能计算已经在国家的科学研究和科技服务行业中占有举足轻重的地位，高性能计算的发展水平已经成为体现一个国家综合科技实力的重要标志。高性能计算需要硬件支持和软件

学位

高性能计算多核集群超级计算机并行编程编程模型

复杂环境下运动车辆检测与识别方法研究

随着机动车数量的不断增加,交通拥挤、交通堵塞、交通事故等问题长期困扰着人们。为改善目前恶劣的交通环境,人们对智能交通系统加大了研究力度。而运动车辆的检测和识别算法

学位

检测与识别仿射弧长角点检测匹配相似度

基于GTP协议的状态检测技术的研究

3G网络的应用越来越广泛,UMTS移动通信系统是3G的标准体制之一,核心网的安全性决定了整个网络及用户数据的安全,GTP协议是核心网中的核心协议,对它进行研究具有重要的意义。

学位

UMTSGTP状态检测超时机制

文本评论数据质量分析方法研究

随着电子商务的快速兴起,人们越来越倾向于网络购物。一方面由于网购交易双方信息的不对称性,使网购用户鉴定商品质量的困难加大,降低电子商务市场的交易效率;另一方面,用户

学位

评论质量特征提取特征主题层次格文档主题生成模型形式概念分析

基于概率特征的在线人体动作识别方法研究

深度摄像头的出现,大大推动了人体动作识别的发展。深度摄像头的深度图像能提供拍摄目标的深度信息,这些信息可以使研究者高效可靠地提取出人体的骨骼数据。由于骨骼数据能很

学位

动作识别概率模型字典Kinect深度图像特殊欧氏群概率特征

基于ARM的嵌入式系统在电声二胡的应用

传统二胡作为中国最具代表性的民族乐器,是中国民族乐器复兴与发展的良好载体,被广大群众接受。但是传统二胡存在制作工艺复杂,成本高,耗费蟒皮、红木等珍贵动植物资源等特点

学位

嵌入式系统ARMS3C2440UDA1431μC/OS-Ⅱ电声二胡

云计算中模糊关键词可搜索加密方案研究

随着云计算技术的发展,为了减轻数据存储和管理负担,越来越多的企业或个人选择将数据文件外包存储在云端服务器上。为了保护数据隐私,用户需要在数据外包之前对数据进行加密,

学位

可搜索加密(SE)云计算隐私保护可验证模糊检索动态更新

基于Ajax技术的网站模板系统的研究和实现

随着社会经济的高速发展和网络的迅速普及,网站作为一种通讯工具已经成为企业、个人发布信息或提供网络服务的主要工具。目前很多企业都拥有自己的网站,他们利用网站来宣传企

学位

网站布局自助建站网站模板页面元素Ajax所见即所得Web2.0

基于遗传算法的二维排样研究

近年来我国制造行业飞速发展,钣金、制衣、玻璃、造纸等行业均涉及到切割工艺。排样问题是在有限的原材料上寻求科学、有效的方法切割出更多的零件。优化设计排样可以降低企

学位

矩形排样遗传算法染色体树

航空制造业中BOM系统的研究与应用

随着计算机技术的发展和CAD的广泛应用,类似于PDM(Product Data Management,产品数据管理)系统的信息管理系统不断涌现,BOM系统作为ERP系统的一个重要环节,由于其使用周期长,

学位

BOMWBS物料清单数据仓库BOM树分解

基于自然邻的层次聚类算法研究

其他学术论文