基于衰减窗口与剪枝链表树的高维数据流聚类算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：yehyuan

【摘要】

：

近几年来,随着以互联网为代表的计算机信息技术的普及,数据呈飞速增长的趋势,人们积累的信息量达到了TB级,甚至PB级。在现实生活中,许多数据是以动态的“连续数据流”的形式

【作者】

：

王冬秀

【机构】

：

华东师范大学

【出处】

：

华东师范大学

【发表日期】

：

2010年期

【关键词】

：

数据流高维聚类衰减窗口剪枝链表树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几年来,随着以互联网为代表的计算机信息技术的普及,数据呈飞速增长的趋势,人们积累的信息量达到了TB级,甚至PB级。在现实生活中,许多数据是以动态的“连续数据流”的形式出现的,它不同于传统的数据被存在静态介质中,可以被多次访问。数据流的特点是：(1)数据规模大；(2)维数高；(3)到达速度快；(4)潜在无序性；(5)每个元素只能被访问一次。因此,许多传统的聚类算法已经无法获得有意义的聚类结果,针对高维数据流普遍存在的“维度灾难”问题,本文将重点围绕如下几个问题展开：(1)如何设计有效的聚类算法,适应持续快速到来的高维数据流?(2)在聚类过程中,如何发现更多的聚类,提高聚类效果?(3)在聚类过程中,如何降低内存消耗?(4)在聚类过程中,如何提高算法的效率,减少算法的运行时间?本文在对经典的数据流聚类算法进行学习和研究后,针对经典算法存在的不足,进行了改进和提高,提出了一种新的高维数据流聚类算法。主要工作包括以下三个方面：(1)为了有效地控制内存规模,在聚类过程中减少内存消耗,本文提出了一种概要数据结构—剪枝链表树,简称PL-Tree,用来保存数据流的摘要信息,在有任何聚类请求时,能够在线输出近似的聚类结果。本文采用核心技术数据淘汰和剪枝策略,有效地控制了内存规模,提高了算法的运行效率。(2)为了设计一种高效的聚类算法,适应持续到来的高维数据流,本文基于PL-Tree概要数据结构,提出了一种基于衰减窗口与剪枝链表树的高维数据流聚类算法,简称PLStream算法。同时,为了减小历史数据对聚类结果的影响,利用衰减窗口及衰减因子对历史数据逐步进行衰减。最后用实验证明该算法的有效性。(3)为了说明新算法的有效性,本文算法与经典算法CELL TREE算法进行了比较,实验表明,该算法在空间伸缩性和聚类效果方面都有较显著地提高。

其他文献

抗打印扫描数字水印系统的设计与实现

本文主要研究抗打印扫描的数字图像水印算法,通过分析抗打印扫描数字水印算法的研究现状,设计一种较为完善的抗打印扫描的数字水印系统,并使之能够有效的应用于硬拷贝图文的

学位

数字水印打印-扫描硬拷贝像素失真几何失真

船舶监控系统中实时数据清洗技术研究

随着航运船舶数量的逐年增加,人们对船舶航行安全的要求也在不断提高。对船舶设备运行状态进行实时监控是确保船舶安全运行的主要技术手段之一。由于船舶设备数量大、型号多

学位

船舶监控数据清洗冗余数据缺失数据SNM算法KNN算法

垂直搜索中信息属性抽取和分类模型研究与实现

随着网络的普及和发展,互联网已经成为人们生活、学习、工作、娱乐的重要途径。互联网作为信息载体,近年来以惊人的速度在增长,信息量以TB计算,拥有上千万个网站、数十亿的用

学位

信息抽取文本分类人工神经网络

基于DF关系的聚类分析算法及其应用研究

目前面向动态模糊数据的聚类分析研究的还比较少,为此,在动态模糊逻辑理论基础上,结合传统的聚类分析和模糊聚类分析理论,本文对面向动态模糊数据的聚类分析算法做一些尝试研

学位

动态模糊集动态模糊关系动态模糊矩阵聚类分析算法

针对主动攻击的信任计算方法

当前基于信任计算的应用越来越多,涉及网络通讯、网络购物甚至是网络金融等众多与人们日常工作生活息息相关的领域,信任计算已经成为了各类网络应用中的重要一环。然而,针对

学位

信任计算信任评估信任计算安全洗白攻击群组信任

不确定数据挖掘技术研究及应用

随着数据采集技术和数据处理技术的发展,人们对数据不确定性的认识逐渐深入。由于测量误差、设备精度、保密措施等各种因素的影响,数据表现出固有的不确定性,这种数据被称为

学位

不确定数据数据挖掘系统离群点检测动态规划虚拟网格频繁项集挖掘

基于感兴趣区域检测的网络不良图片识别研究

互联网中色情图片传播泛滥,对其自动识别与过滤越来越重要。在本课题中,主要针对网络上常见的单人色情写真类图片,提出了基于感兴趣区域(Regions of Interest,ROIs)检测的不

学位

不良图片识别感兴趣区域肤色模型姿态部件特征提取支持向量机

基于数据挖掘的高校评教系统设计与实现

数据挖掘(Data Mining)是从大量不完全、有噪声、模糊的、随机数据中,发现隐含其中而人们先前未知、又潜在有用的信息和知识的过程。关联挖掘是数据挖掘研究中的一个重要分支

学位

数据挖掘关联规则Apriori教学评价

支持多传输方式的嵌入式数据采集系统的研究与设计

随着微电子技术、通讯技术和网络技术的不断发展,嵌入式应用技术以其易于集成、开销低以及应用广泛等特点成为现代社会各个领域的热门技术,在数据采集领域也发挥着非常重要的

学位

传输方式数据采集系统嵌入式LinuxSPCE061A

车载网络中信息服务广播路由协议的研究与设计

车载自组网(Vehicle Ad Hoc Network, VANET)是一种无线移动Ad hoc网络,它为车辆间以及车辆与道路边的设备间提供通信服务。VANET作为一种新兴的无线Ad hoc网络,吸引了众多业

学位

VANET智能交通系统NBPISWAVENCTUns仿真

基于衰减窗口与剪枝链表树的高维数据流聚类算法研究

其他学术论文