论文部分内容阅读
当前在数据挖掘领域中,数据流聚类分析成为聚类研究中的一个重要方向。基于网格的聚类算法中网格的划分粒度直接影响聚类质量,且不适用于高维数据流聚类。针对上述问题,本文的研究重点放在了基于网格的数据流聚类算法上。这些聚类算法的研究成果在网络安全,无线传感,工业控制等领域具有重要的作用。首先,提出了一种基于不规则网格的高维数据流聚类算法。该算法根据数据点在每个维的l邻域内进行网格划分,并动态地调整网格结构。当有聚类请求的时候,通过识别网格单元密度最低点找到聚类子空间,并在子空间进行基于网格的聚类。其次,提出了一种基于矩阵的高维数据流聚类算法。此算法采用了CluStream算法的两阶段框架。在线阶段,用一组不相交的GC结构维护每维数据的概要信息,定期删除稀疏的GC单元。离线阶段,利用稠密的网格单元GC构建网格矩阵。当有聚类请求的时候,根据指针指向遍历矩阵得到多维的聚类结果。最后,提出了基于软件故障特征检测的序列数据聚类算法。该算法在统计词频的基础上,增加了对子序列规整度的度量,提出一种新的序列相似性度量方法,提高了序列之间相似度的准确性。在聚类阶段,采用微簇之间相似性度量标准,将具有相似性的微簇进行合并,实现用户要求的k个聚类结果。通过对故障特征的聚类,缩小了软件故障特征分析时故障特征的匹配范围。本文使用java语言对上述算法进行实现。实验结果表明,本文提出的算法在聚类质量上明显优于同类算法,实现了预期的研究目标。