论文部分内容阅读
数据挖掘是从数量庞大的、随机出现的、客观存在的、不完全的并充满噪声的数据中提取和发现有价值的信息,从而为商务分析与决策、自然科学理论、人文地理等提供有效的技术支持和可靠的数据依据。其中,聚类分析是数据挖掘中一项十分重要而有趣的研究课题,并且因为其强大的应用和研究价值而受到越来越广泛的关注。
为解决网格聚类算法中对参数过于敏感、无法自动识别不同密度梯度类以及不同梯度类间划分不够精确等问题,提出了基于最优划分的多密度梯度网格聚类算法(OPMDG)。该算法只需用户输入一个大致的密度阈值范围,网格边长自动计算并可自动调节适应,减少了算法对参数的敏感性;提出了二重划分技术,可挖掘不同密度梯度的类;对于处于不同类上的交界点,引入了电荷间吸引力的概念,能有效解决类间聚类精度不高等问题。
实验结果表明,OPMDG算法能识别各种不同形状、大小的簇,挖掘具有不同密度梯度类,并能有效地划分边界和去除离群点与噪声点。在通过和GCOD算法的对比中,可以显著发现OPMDG算法的精度和准确度更高,且时间复杂度是一个不大的线性函数。