论文部分内容阅读
为提高数据分布不规则和含有噪音时的数据流聚类质量,提出了一种有效的数据流二次聚类算法TCLUSA.该算法基于分区思想,采用DBSCAN方法对每块分区进行聚类,以得到的簇的均值点作为其代表点,再用k-means对所获得的代表点进行聚类,算法采用分层结构保存每次聚类获得的簇参考点,直至获得最终结果.理论分析和实验结果表明,TCLUSA算法能有效提高数据流的聚类质量.