一种基于密度的不确定性数据聚类算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zhaojianan1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定数据处理技术和数据挖掘技术已经在诸多的领域中得到了广泛的应用,在两者结合的一个领域中,对于不确定数据聚类算法的研究已成为当前的一个大的研究热点。由于在不确定数据聚类方面的研究时间较短,现有的一些不确定数据聚类算法大都是从基于确定性数据聚类算法结合不确定数据特性转化而来的,相对较为成熟的不确定数据聚类算法十分稀少。因此,随着不确定性数据的不断产生与发展应用,对于不确定性数据聚类算法的研究也变的日益迫切。论文在分析研究了不确定数据特性、不确定数据相关处理技术、基于密度的确定性数据聚类算法、基于密度的不确定数据聚类算法等相关理论与技术的基础上,总结出了对基于密度不确定性数据聚类算法进行改进的一般性方法过程,并根据该方法过程引入概率半径和信息熵的概念,提出了一种改进的基于密度的不确定性数据聚类算法,称它为基于概率半径和熵的不确定性数据密度聚类算法(Probability Radius and Entropy-Density-based Spatial Clustering of Application with Noise,PRE-DBSCAN)。首先,针对现有的算法对ε-邻域的约束并未考虑不确定性数据自身的因素,造成ε-邻域的不确定性数据范围不够精确的问题,给出了一个不确定数据对象的重要度的定义,并根据不确定数据对象的特性提出了概率半径的概念,通过概率半径PR对不确定数据对象邻域范围进行限定和约束,提高对象邻域的准确性;其次,针对现有算法对核心对象的约束不够精确的问题,结合不确定数据的特性,引入了信息熵的概念,通过最小信息熵MinEn和对象邻域内最小数据点数量MinPts共同对核心对象进行判断,以减小核心对象的不确定性;最后,对比现有的PDBSCAN算法和FDBSCAN算法采用的索引技术,PRE-DBSCAN算法利用不确定数据的索引技术R~*树索引进一步提高算法效率,并给出了新提出的PRE-DBSCAN算法的算法描述和伪代码。通过仿真实验对本文提出的PRE-DBSCAN算法在不确定数据聚类方面的能力进行了验证,并对比了现有的PDBSCAN算法和FDBSCAN算法。实验结果表明本文提出的PRE-DBSCAN算法能很好的适用于不确定数据的聚类处理,并具有较好的聚类准确性和较高的算法效率,同时在多维数据处理能力上也具有较好的性能。
其他文献
计算机视觉是指对动物和人类的视觉形成机制进行模拟,对场景的图像信息处理与分析。随着计算机技术的快速进步,以及人工智能和模式识别等领域研究的不断深入,使得计算机视觉
随着真实世界的复杂网络规模变大,对于网络全局信息很难把握,一些经典的社团发现方法的时间复杂度也随之变高。因此,一种基于网络局部信息的局部社团发现方法被提出来。局部
随着云计算等新技术的快速发展、社交网络等新型互联网应用的兴起,人类获取和存储数据的规模正以前所未有的速度爆炸式增长,与大规模图数据相关的技术变革成为学术界和工业界
本文总共分为五章,第一章我们主要是介绍了随机生物数学的背景知识、基本概念和一些主要的定理。第二章主要是研究了一类具有时滞和B-D功能响应函数的随机捕食系统的动力学性
产品架构直观反应了产品设计的结果,对企业创新战略的各个环节产生直接影响,这些影响发生在成本和时间、供应链管理、商业模式创新、产品创新、竞争优势、平台领导力等方面,
高精度、高集成度电路板中布线密集,强弱信号交织,在外界强电磁场干扰下容易诱发气体放电现象。前人对于气体放电现象进行了大量的研究,总结了气体放电的主要机理和规律,然而
量价关系一直都是金融学研究的重点,学者们提出了不同的假说来解释量价关系,例如序贯信息到达假说和混合分布假说。然而在不同市场的实证分析得到了两种假说验证的混合结论,
随着3D硬件的快速发展、3D游戏的普及以及3D打印技术的成熟,三维模型被广泛的传播和应用。然而,人们在享受三维模型带来的逼真视觉感受的同时,不法分子对模型的破坏操作也变
近年来我国物流行业发展迅速,各家物流企业之间竞争加剧,物流企业为了寻求新的利润增长点,拓宽业务范围,纷纷打破传统业务格局,尝试将物流与金融结合,发展物流金融,由此,物流
数据挖掘是在大数据集中通过一定的算法挖掘出对人们有用的知识和信息,数据挖掘在当今时代社会生活中应用非常的广泛。聚类分析算法是数据挖掘中最为主要的研究领域之一,聚类