基于衰减窗口与剪枝链表树的高维数据流聚类算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:yehyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着以互联网为代表的计算机信息技术的普及,数据呈飞速增长的趋势,人们积累的信息量达到了TB级,甚至PB级。在现实生活中,许多数据是以动态的“连续数据流”的形式出现的,它不同于传统的数据被存在静态介质中,可以被多次访问。数据流的特点是:(1)数据规模大;(2)维数高;(3)到达速度快;(4)潜在无序性;(5)每个元素只能被访问一次。因此,许多传统的聚类算法已经无法获得有意义的聚类结果,针对高维数据流普遍存在的“维度灾难”问题,本文将重点围绕如下几个问题展开:(1)如何设计有效的聚类算法,适应持续快速到来的高维数据流?(2)在聚类过程中,如何发现更多的聚类,提高聚类效果?(3)在聚类过程中,如何降低内存消耗?(4)在聚类过程中,如何提高算法的效率,减少算法的运行时间?本文在对经典的数据流聚类算法进行学习和研究后,针对经典算法存在的不足,进行了改进和提高,提出了一种新的高维数据流聚类算法。主要工作包括以下三个方面:(1)为了有效地控制内存规模,在聚类过程中减少内存消耗,本文提出了一种概要数据结构—剪枝链表树,简称PL-Tree,用来保存数据流的摘要信息,在有任何聚类请求时,能够在线输出近似的聚类结果。本文采用核心技术数据淘汰和剪枝策略,有效地控制了内存规模,提高了算法的运行效率。(2)为了设计一种高效的聚类算法,适应持续到来的高维数据流,本文基于PL-Tree概要数据结构,提出了一种基于衰减窗口与剪枝链表树的高维数据流聚类算法,简称PLStream算法。同时,为了减小历史数据对聚类结果的影响,利用衰减窗口及衰减因子对历史数据逐步进行衰减。最后用实验证明该算法的有效性。(3)为了说明新算法的有效性,本文算法与经典算法CELL TREE算法进行了比较,实验表明,该算法在空间伸缩性和聚类效果方面都有较显著地提高。
其他文献
本文主要研究抗打印扫描的数字图像水印算法,通过分析抗打印扫描数字水印算法的研究现状,设计一种较为完善的抗打印扫描的数字水印系统,并使之能够有效的应用于硬拷贝图文的
随着航运船舶数量的逐年增加,人们对船舶航行安全的要求也在不断提高。对船舶设备运行状态进行实时监控是确保船舶安全运行的主要技术手段之一。由于船舶设备数量大、型号多
随着网络的普及和发展,互联网已经成为人们生活、学习、工作、娱乐的重要途径。互联网作为信息载体,近年来以惊人的速度在增长,信息量以TB计算,拥有上千万个网站、数十亿的用
目前面向动态模糊数据的聚类分析研究的还比较少,为此,在动态模糊逻辑理论基础上,结合传统的聚类分析和模糊聚类分析理论,本文对面向动态模糊数据的聚类分析算法做一些尝试研
当前基于信任计算的应用越来越多,涉及网络通讯、网络购物甚至是网络金融等众多与人们日常工作生活息息相关的领域,信任计算已经成为了各类网络应用中的重要一环。然而,针对
随着数据采集技术和数据处理技术的发展,人们对数据不确定性的认识逐渐深入。由于测量误差、设备精度、保密措施等各种因素的影响,数据表现出固有的不确定性,这种数据被称为
互联网中色情图片传播泛滥,对其自动识别与过滤越来越重要。在本课题中,主要针对网络上常见的单人色情写真类图片,提出了基于感兴趣区域(Regions of Interest,ROIs)检测的不
数据挖掘(Data Mining)是从大量不完全、有噪声、模糊的、随机数据中,发现隐含其中而人们先前未知、又潜在有用的信息和知识的过程。关联挖掘是数据挖掘研究中的一个重要分支
随着微电子技术、通讯技术和网络技术的不断发展,嵌入式应用技术以其易于集成、开销低以及应用广泛等特点成为现代社会各个领域的热门技术,在数据采集领域也发挥着非常重要的
车载自组网(Vehicle Ad Hoc Network, VANET)是一种无线移动Ad hoc网络,它为车辆间以及车辆与道路边的设备间提供通信服务。VANET作为一种新兴的无线Ad hoc网络,吸引了众多业