论文部分内容阅读
不确定数据处理技术和数据挖掘技术已经在诸多的领域中得到了广泛的应用,在两者结合的一个领域中,对于不确定数据聚类算法的研究已成为当前的一个大的研究热点。由于在不确定数据聚类方面的研究时间较短,现有的一些不确定数据聚类算法大都是从基于确定性数据聚类算法结合不确定数据特性转化而来的,相对较为成熟的不确定数据聚类算法十分稀少。因此,随着不确定性数据的不断产生与发展应用,对于不确定性数据聚类算法的研究也变的日益迫切。论文在分析研究了不确定数据特性、不确定数据相关处理技术、基于密度的确定性数据聚类算法、基于密度的不确定数据聚类算法等相关理论与技术的基础上,总结出了对基于密度不确定性数据聚类算法进行改进的一般性方法过程,并根据该方法过程引入概率半径和信息熵的概念,提出了一种改进的基于密度的不确定性数据聚类算法,称它为基于概率半径和熵的不确定性数据密度聚类算法(Probability Radius and Entropy-Density-based Spatial Clustering of Application with Noise,PRE-DBSCAN)。首先,针对现有的算法对ε-邻域的约束并未考虑不确定性数据自身的因素,造成ε-邻域的不确定性数据范围不够精确的问题,给出了一个不确定数据对象的重要度的定义,并根据不确定数据对象的特性提出了概率半径的概念,通过概率半径PR对不确定数据对象邻域范围进行限定和约束,提高对象邻域的准确性;其次,针对现有算法对核心对象的约束不够精确的问题,结合不确定数据的特性,引入了信息熵的概念,通过最小信息熵MinEn和对象邻域内最小数据点数量MinPts共同对核心对象进行判断,以减小核心对象的不确定性;最后,对比现有的PDBSCAN算法和FDBSCAN算法采用的索引技术,PRE-DBSCAN算法利用不确定数据的索引技术R~*树索引进一步提高算法效率,并给出了新提出的PRE-DBSCAN算法的算法描述和伪代码。通过仿真实验对本文提出的PRE-DBSCAN算法在不确定数据聚类方面的能力进行了验证,并对比了现有的PDBSCAN算法和FDBSCAN算法。实验结果表明本文提出的PRE-DBSCAN算法能很好的适用于不确定数据的聚类处理,并具有较好的聚类准确性和较高的算法效率,同时在多维数据处理能力上也具有较好的性能。