基于网格的高维数据流与序列数据聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:aaasssddd001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前在数据挖掘领域中,数据流聚类分析成为聚类研究中的一个重要方向。基于网格的聚类算法中网格的划分粒度直接影响聚类质量,且不适用于高维数据流聚类。针对上述问题,本文的研究重点放在了基于网格的数据流聚类算法上。这些聚类算法的研究成果在网络安全,无线传感,工业控制等领域具有重要的作用。首先,提出了一种基于不规则网格的高维数据流聚类算法。该算法根据数据点在每个维的l邻域内进行网格划分,并动态地调整网格结构。当有聚类请求的时候,通过识别网格单元密度最低点找到聚类子空间,并在子空间进行基于网格的聚类。其次,提出了一种基于矩阵的高维数据流聚类算法。此算法采用了CluStream算法的两阶段框架。在线阶段,用一组不相交的GC结构维护每维数据的概要信息,定期删除稀疏的GC单元。离线阶段,利用稠密的网格单元GC构建网格矩阵。当有聚类请求的时候,根据指针指向遍历矩阵得到多维的聚类结果。最后,提出了基于软件故障特征检测的序列数据聚类算法。该算法在统计词频的基础上,增加了对子序列规整度的度量,提出一种新的序列相似性度量方法,提高了序列之间相似度的准确性。在聚类阶段,采用微簇之间相似性度量标准,将具有相似性的微簇进行合并,实现用户要求的k个聚类结果。通过对故障特征的聚类,缩小了软件故障特征分析时故障特征的匹配范围。本文使用java语言对上述算法进行实现。实验结果表明,本文提出的算法在聚类质量上明显优于同类算法,实现了预期的研究目标。
其他文献
“工业生物技术战略研究与知识环境建设”项目是中国科学院知识创新工程重要方向项目,它旨在通过整合国际与国内工业生物技术领域多类型的数据信息资源,为该领域的科研人员和决
学位
随着产品设计的复杂化,应用领域中的数学建模和仿真越来越重要,传统建模方法基于赋值语句,主要考虑单一系统,工程人员需要对程序设计语言和算法求解有相当程度的熟悉,这导致了传统
数据挖掘是从海量数据中挖掘有用知识的一个强有力的工具,可以帮助人们从数据中获取更深层次的有用信息,已经在银行、保险、电信、生物数据分析等领域得到了广泛的应用。随着
优良的头发模拟方法在虚拟人的真实感绘制中起着决定性的因素。但是头发自身的复杂结构以及其在力的作用下的复杂的运动规律给头发的模拟过程带来了很大的障碍,使得模拟方法
随着企事业单位信息化建设的不断升级和各单位间日益紧密的业务协作关系,传统的单独网站建设方式已不能满足网站间互联互通、数据共享的需求,网站群在网站建设中得到了越来越多
构件组装是提高软件开发效率与产品质量的有效途径。目前,构件组装的研究主要集中在软件体系结构与构件组装机制上,对于如何从高层的构件组装模型产生完整的程序代码尚没有系统
学位
电子邮件地址国际化(Email Address Internationalization,EAI)是IETFEAI工作组的研究方向,本文讨论的内容以这项研究为背景。   首先,作者介绍了工作组提出的电子邮件地址国
学位
多路径是现代IP网络的一个基本特征。基于多路径的负载均衡机制能有效地提升网络传输性能。经典的负载均衡机制ECMP易产生哈希冲突,从而导致长流吞吐量下降和短流时延增加等问
随着社会信息化程度的不断提高,社会各行各业需要实施远程视频监控的范围大大增加,由传统的安防监控向管理监控和生产经营监控发展,对远程视频监控系统的要求也日益提高,往往需要
阴影是自然界中一种普遍存在的自然现象,它能够提供场景数据之外的感知信息,因此阴影的实时绘制是真实感技术研究的主要内容之一。本文围绕阴影的实时绘制技术这一主题展开,主要