数据流聚类算法研究

来源 :东华大学 | 被引量 : 4次 | 上传用户:yehyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术的飞速发展和广泛应用,数据流作为一类新型的数据模型越来越多的出现在人们的生活中,如计算机网络流、金融数据流、环境监测数据流和日志分析数据流等。数据流的实时、快速、不可再现、海量等的特点要求数据流的处理必须是快速的、低空间复杂度的,这使得传统基于数据库的数据分析和处理技术已经难以胜任这类新型数据模型的处理需求了。当前,基于数据流模型的分析和处理技术已成为学术界的一个研究热点。聚类分析是数据分析与处理领域中一个重要的研究课题。随着数据越来越多地以流的形式出现在应用中,数据流的聚类问题已引起了人们的广泛关注。然而,数据流本身所具有的特征使得传统的聚类算法不可能(甚至不能)直接应用于数据流分析中,必须研究与数据流相适应的聚类方法。虽然已有不少学者对数据流上的聚类分析问题进行了大量研究工作,但仍存在许多问题尚待研究和解决。本文针对现有数据流聚类算法存在的不足,从数据流的不同方面对数据流聚类算法进行了研究。概括地来说,本文的主要研究工作可以分为以下几个方面:(1)数据流的任意形状簇的聚类发掘任意形状的簇,对于许多的数据流的应用来说具有非常重要的意义,然而,当前大多数的数据流聚类算法仅限于得到球形簇。已有的数据流上的任意形状簇的聚类算法(如DenStream)又存在着需要用户输入过多的系统参数等的不足。针对进化数据流上的任意形状簇的聚类问题,本文提出了一个基于网格技术的聚类算法,该算法通过网格来存储聚类的统计信息,并通过迭代合并格的策略产生簇,实验结果表明,该算法可以很好地发掘出进化数据流中具有任意形状的簇,并且该算法对于噪声具有很强的免疫力。较之于其他同类算法,该算法能提供用户更为“友好”的操作。(2)具有混合属性的数据流聚类随着聚类分析的广泛应用,越来越多的应用领域要求算法能处理包含不同数据类型的数据,然而目前大部分的数据流聚类算法只是针对单一的数据类型的聚类,它们简单地丢弃了其它的数据类型,从而影响了聚类的质量。为了解决混合属性的数据流聚类问题,本文提出了混合属性的数据流数据度量方法,并在此基础上,提出了两种混合属性的数据流聚类方法:方法一引入等价相异度矩阵来维护微簇信息,通过不同的相异度水平产生不同的聚类效果;方法二通过空间分段,将每个数据对象映射到对应空间段,微簇信息被存储于簇列表中。这两种方法都可以对数据对象的信息进行缩减,从而降低了参与聚类的计算信息量,减少了计算的时间开销。所提出的dCluStream算法和MStream算法不仅能处理混合属性的数据流数据,同时比同类算法(如HCluStream)具有更少计算时间消耗。(3)数据流上的模糊聚类由于传统的模糊聚类方法存在着需要多次扫描全局数据集、对初始簇中心选择和噪声的敏感等原因,数据流上的进行模糊聚类面临着巨大的困难和挑战。针对数据流的模糊聚类问题,本文提出了一种分治的解决方案,即,首先按数据流到达的先后顺序分成若干数据块,通过增量地对数据加权,将处理数据对象的范围局限于有限的数据段,从而克服了模糊聚类需要反复扫描全局数据集的不足,再对这些数据块进行增量加权模糊聚类。理论分析与实验表明,在数据流环境下所提出的算法SWFCM比传统的模糊聚类算法具有更好的聚类效果、更小的内存开销和更少的聚类时间消耗。(4)数据流上的可能性聚类为了克服模糊聚类对初始簇中心选择和噪声的敏感,本文提出一种基于可能性的数据流软聚类算法SWPCM,SWPCM算法采用SWFCM类似的分治策略将数据流分成若干数据块,再在这些数据块上增量地对数据进行加权聚类。SWPCM算法不但继承了PCM算法对噪声的免疫能力,而且采用随机选取初始簇中心的策略,这表明SWPCM算法对于初始簇中心的选择是不敏感的。实验进一步表明,SWPCM在维护自然簇的纯度与完整性方面具有很强的能力。较之于全局扫描算法方法而言,SWPCM可以节省大量的计算时间和内存消耗。本文对数据流聚类中的几个关键问题进行了有效地探索与尝试,提出了新的解决方法,理论分析与实验结果表明本文算法能够较为有效地解决相应问题,是对现有数据流聚类方法的有益改进和补充。对于推进数据流聚类技术的理论研究和实用化具有一定的理论价值与应用价值。
其他文献
本实用新型公开一种电动车脚踏折叠机构,包括有一后叉支架、两固定件以及两脚踏;该两固定件固定于后叉支架的两侧,该两脚踏的内端均可转动地安装于两固定件上,每一固定件的底
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
公共选修课是高校推进人才培养模式的重要组成部分。本文对包头师范学院开设公共选修课存在的弊端进行了分析,进而提出了改进意见,推进教学改革深入进行。
<正> 青少年犯罪问题,是二战后许多国家和地区向现代化社会转型过程中,出现的世界性的社会问题。随着近二、三十年来台湾地区由传统农业社会向现代工商社会的急速转型,也产生
(一) 我们上海市茶叶学会在市科协的指导、关心、帮助之下,坚持“研究茶科技、普及茶知识、弘扬茶文化、发展茶经济”的宗旨,把学术、科普、文化、经济有机的融为一体。坚持走向
新产品开发是修造企业在被全面推向市场后生存和发展的重要手段,针对新产品开发的整个过程中所面临的各种风险,提出了一种测算新产品开发风险的过程分析法,这种方法主要应用
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
调查分析发现,农村中小学在新课程改革实验过程中存在着来自农村家庭和社会、教师、学校课程资源、评价激励机制等方面的障碍因素。教育主管部门应根据农村人群特点开展针对性
经济需要的是各类能源的不断供应,现阶段来看社会发展对石油以及天然气这类化石能源是高度依赖的,尤其是工业化的不断发展,社会的石油需求不断提升,以往普通稠油的开发已经逐
城中村是城市化的产物之一,近年来在我国城市化进程中,城市规模不断扩大,城中村的人员管理、环境卫生、空间规划及利用等方面的问题日益突显。本文以广州市天河区石牌村为例,对其