【摘 要】
:
对国内外数据流聚类的研究情况分析可知,已有的数据流聚类算法存在如下问题:不能聚类具有不确定性的混合属性数据流;在聚类过程中不能对不确定性数据流中近期的数据进行详细
论文部分内容阅读
对国内外数据流聚类的研究情况分析可知,已有的数据流聚类算法存在如下问题:不能聚类具有不确定性的混合属性数据流;在聚类过程中不能对不确定性数据流中近期的数据进行详细的分析;在聚类过程中不能得到任意形状的聚类。针对这些问题,本课题将研究重点放在基于元组聚类特征的不确定性数据流聚类算法的研究上,解决这些问题对研究基于位置服务的应用、电子商务等领域具有重要的意义。首先,为了能对具有不确定性的混合属性数据流进行聚类,提出了一种具有不确定性的混合属性数据流聚类算法HU-Clustering。该算法使用概率频度直方图来统计标称属性部分的信息,定义了混合属性不确定性聚类特征以便能描述混合属性不确定性数据流的分布特征。并采用基于两轮选择的聚类过程来提高聚类质量。其次,为了能对近期的数据进行分析,提出了一种基于滑动窗口的不确定性数据流聚类算法SWCUStreams。该算法采用两阶段的聚类框架。在在线部分,定义了不确定性时间聚类特征来描述元组的不确定性信息,提出不确定性聚类特征指数直方图存储近期数据的分布特征。在离线部分,基于不确定性聚类特征指数直方图的统计信息,采用UK-means算法来生成最终的聚类结果。最后,为了得到任意形状的聚类结果,提出了一种基于网格概率密度的不确定性数据流聚类算法GD-CUStreams。该算法定义了不确定性网格聚类特征来统计不确定性信息并存储网格中的概要信息。针对用户的聚类请求,依据网格概率密度阀值判断网格类型并输出满足要求的网格类型。
其他文献
机群系统凭借良好的可扩展性、可用性以及极高的性价比成为高性能计算机和超级服务器的主流结构。现阶段许多数据密集型应用需要海量存储以及高数据传输带宽的支持,在这种环境
随着计算机图形学和多媒体技术的广泛应用,计算机系统中图形的计算需求不断增大。处理器主要针对科学计算设计,而图形计算通常是面向显示的处理,采用处理器进行图形计算效率非常
中国科学院通过多年的科学研究,积累了大量的关系型科学数据资源。e-Science的提出和发展,使得对海量数据的大规模科学计算成为新的科研手段。但现有关系型科学数据库模式的异
近年来,随着嵌入式行业的不断发展,嵌入式操作系统以及各种用户程序的功能日臻完善,在嵌入式主板上运行Linux系统已经变得越来越流行。Linux的Bootloader引导程序、Linux启动过
传统的编译技术通过词法和语法分析把源程序转换成一种方便处理的数据结构(抽象语法树或语法树),然后通过语法制导翻译成相应的机器码。
当前,国外的学术界提出了一些基于
随着计算机网络技术和虚拟现实技术的日新月异,分布式虚拟现实成为研究热点,并且开始得到广泛应用,包括从工程协作、网络娱乐、文化交通、到军事仿真和推演等不同领域。关键技术
网格是继万维网之后出现的一种新型网络计算平台,是把地理位置上分散的资源集成起来的一种基础设施。资源共享是网格的根本特征。在网格环境下,信息资源的需求者与提供者分别分
通过对国内外工作流模型的研究情况分析可知,以往的基于工作流模型的研究还存在诸多问题。目前的工作流模型大部分都是从直觉出发,以图形语言或者文本语言来定义工作流过程。
传统的工作流管理系统具有一定的局限性,不能很好地应对业务规则和环境的变化,从而限制了工作流管理系统的应用。由于业务流程改进及流程客户化的要求,工作流管理系统需要具备一
现在越来越多企业级应用系统之间的数据转发是通过分布式消息系统完成,随着互联网的发展,企业应用系统的数据量也随之增长,因此高性能成为了分布式消息系统一个追求目标。为了从