论文部分内容阅读
数据挖掘就是从海量数据中提取具有潜在价值的信息,是目前信息管理领域和数据库技术最前沿的研究方向之一。聚类分析作为数据挖掘技术中的重要组成部分,已经广泛应用于模式识别、图像处理、数据压缩及市场营销等许多领域。本文深入探讨了K-medoids聚类算法、粒子群算法、核函数以及粗糙集理论,主要研究工作如下:(1)针对K-medoids算法存在初始聚类中心敏感、聚类精度较低及收敛速度缓慢的缺点,提出一种基于密度初始化、密度迭代的搜索策略和准则函数优化的方法。实验表明,该算法能充分利用密度初始化思想,并将中心点的候选范围缩小使得聚类收敛时间大幅度减少,加权准则函数进一步保证了聚类的高效性。(2)深入分析K-medoids算法还存在易陷入局部最优的缺点,提出一种基于粒子群的聚类算法。通过寻找粒子群和K-medoids算法的契合度,利用粒子群的全局寻优能力防止算法陷入局部最优。实验表明,与其他算法相比,该算法具有更高的正确率,时间复杂度更低,综合性能更稳定。(3)提出一种基于粒子群的粗糙核聚类算法,该算法将K-medoids和粗糙集、核函数及粒子群算法进行有效结合,克服了K-medoids不能处理非线性数据和边界对象的缺点。该算法通过Mercer核将样本映射到高维空间,使样本变得线性可分;并结合粗糙集思想,对边界对象进行处理;同时采用ReliefF方法对样本属性进行加权处理,最后利用粒子群算法防止算法陷入局部最优。实验证明,该算法能对高维线性不可分数据具有较好的聚类效果,并证明了算法的正确性和高效性。