半监督聚类中成对约束的主动学习算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:sky_ywt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于半监督聚类算法,监督信息的选择至关重要。如果引入不恰当的监督信息,可能反而会给聚类结果造成负面影响。常用的监督信息有类标号和成对约束信息两种类型。成对约束信息相对类标号类型的监督信息更加容易获取,并且类标号信息也可以很容易的转换为成对约束信息。本文主要围绕半监督聚类中成对约束信息的主动学习方法展开研究,探索更有效的主动学习策略。相对于其他领域主动学习的研究,半监督聚类中成对约束的主动学习方法的相关研究相对较少。并且,现有的主动学习方法都存在一定的不足。本文提出了一种改进的主动学习方法。该方法相对于Min-Max算法主要有两点改进。第一,在Min-Max算法的基础上增加了 Select阶段,该阶段利用样本邻居中与其当前聚类分布不同的点的数目来衡量其不确定性,从而选取出信息量较大的数据点集合。然后,接下来的Explore阶段和Consolidate阶段就执行在选择出的数据点集合上,而不是整个数据集。第二,Explore阶段的初始点选用Select阶段中选取的不确定性最大的点,而不是随机选择。通过在UCI数据集上的实验证明,提出的算法具有更优的性能。另外,考虑到传统的单机串行算法难以满足当前海量数据的处理需求,本文引入“云计算”思想,基于MapReduce计算框架做了两方面的并行化改进工作。第一,基于MapReduce计算模型对提出的主动学习算法进行了并行化改进。第二,基于MapReduce计算模型对经典的MPCK-means半监督聚类算法进行了并行化改进。同时,本文还将并行化的主动学习算法与MPCK-means半监督聚类算法结合,构建了一种实用的并行化的主动半监督聚类算法,并在搭建的Hadoop集群上进行了大数据集处理实验。实验证明算法具有较好的可扩展性。
其他文献
目的:抗线粒体抗体(AMA)是诊断原发性胆汁性胆管炎(PBC)的重要血清学标志物,由于AMA特异性及检出率较高,AMA阴性者易被忽略PBC诊断而漏诊及延误治疗。因此通过对比AMA阴性及A
背景:慢性粒细胞白血病(chronic myeloid leukemia,CML)是起源于造血干细胞的恶性骨髓增殖性疾病,其特征为含有Ph染色体的骨髓前体细胞的过度增殖。CML分为慢性期,加速期和急
把数学建模的思想融入数学课程教学是提高学生综合素质、锻炼分析问题和解决问题的能力的一条有效途径,就建模思想在医用高等数学教学中渗透与应用进行了初步的探讨.
随着国民经济的持续快速发展,我国对电力方面的能源需求量会持续增长,目前,国内电力行业针对节能、环保要求,电力系统采取“上大压小”政策,中国电力建设已转向大力发展核电