论文部分内容阅读
对于半监督聚类算法,监督信息的选择至关重要。如果引入不恰当的监督信息,可能反而会给聚类结果造成负面影响。常用的监督信息有类标号和成对约束信息两种类型。成对约束信息相对类标号类型的监督信息更加容易获取,并且类标号信息也可以很容易的转换为成对约束信息。本文主要围绕半监督聚类中成对约束信息的主动学习方法展开研究,探索更有效的主动学习策略。相对于其他领域主动学习的研究,半监督聚类中成对约束的主动学习方法的相关研究相对较少。并且,现有的主动学习方法都存在一定的不足。本文提出了一种改进的主动学习方法。该方法相对于Min-Max算法主要有两点改进。第一,在Min-Max算法的基础上增加了 Select阶段,该阶段利用样本邻居中与其当前聚类分布不同的点的数目来衡量其不确定性,从而选取出信息量较大的数据点集合。然后,接下来的Explore阶段和Consolidate阶段就执行在选择出的数据点集合上,而不是整个数据集。第二,Explore阶段的初始点选用Select阶段中选取的不确定性最大的点,而不是随机选择。通过在UCI数据集上的实验证明,提出的算法具有更优的性能。另外,考虑到传统的单机串行算法难以满足当前海量数据的处理需求,本文引入“云计算”思想,基于MapReduce计算框架做了两方面的并行化改进工作。第一,基于MapReduce计算模型对提出的主动学习算法进行了并行化改进。第二,基于MapReduce计算模型对经典的MPCK-means半监督聚类算法进行了并行化改进。同时,本文还将并行化的主动学习算法与MPCK-means半监督聚类算法结合,构建了一种实用的并行化的主动半监督聚类算法,并在搭建的Hadoop集群上进行了大数据集处理实验。实验证明算法具有较好的可扩展性。