基于网格的高维数据流与序列数据聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:aaasssddd001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前在数据挖掘领域中,数据流聚类分析成为聚类研究中的一个重要方向。基于网格的聚类算法中网格的划分粒度直接影响聚类质量,且不适用于高维数据流聚类。针对上述问题,本文的研究重点放在了基于网格的数据流聚类算法上。这些聚类算法的研究成果在网络安全,无线传感,工业控制等领域具有重要的作用。首先,提出了一种基于不规则网格的高维数据流聚类算法。该算法根据数据点在每个维的l邻域内进行网格划分,并动态地调整网格结构。当有聚类请求的时候,通过识别网格单元密度最低点找到聚类子空间,并在子空间进行基于网格的聚类。其次,提出了一种基于矩阵的高维数据流聚类算法。此算法采用了CluStream算法的两阶段框架。在线阶段,用一组不相交的GC结构维护每维数据的概要信息,定期删除稀疏的GC单元。离线阶段,利用稠密的网格单元GC构建网格矩阵。当有聚类请求的时候,根据指针指向遍历矩阵得到多维的聚类结果。最后,提出了基于软件故障特征检测的序列数据聚类算法。该算法在统计词频的基础上,增加了对子序列规整度的度量,提出一种新的序列相似性度量方法,提高了序列之间相似度的准确性。在聚类阶段,采用微簇之间相似性度量标准,将具有相似性的微簇进行合并,实现用户要求的k个聚类结果。通过对故障特征的聚类,缩小了软件故障特征分析时故障特征的匹配范围。本文使用java语言对上述算法进行实现。实验结果表明,本文提出的算法在聚类质量上明显优于同类算法,实现了预期的研究目标。
其他文献
数据挖掘是从海量数据中挖掘有用知识的一个强有力的工具,可以帮助人们从数据中获取更深层次的有用信息,已经在银行、保险、电信、生物数据分析等领域得到了广泛的应用。随着
优良的头发模拟方法在虚拟人的真实感绘制中起着决定性的因素。但是头发自身的复杂结构以及其在力的作用下的复杂的运动规律给头发的模拟过程带来了很大的障碍,使得模拟方法