论文部分内容阅读
集成学习(Ensemble Learning)作为机器学习中一个十分重要的研究方向,广泛地应用于军事研究、科研教育和社会生活等诸多方面。它是使用多个不同的学习器将其结果整合去解决同一问题的机器学习方法。在互联网通信、卫星追踪、地震监测、人类基因库、语音识别、医疗智能诊断等诸多领域,集成学习技术已经得到了广泛的应用。在集成学习研究的前期,学者们面向的是监督式学习。而聚类集成作为非监督式学习,近年来才慢慢受到关注,成为机器学习领域又一个热门研究。聚类集成是将一个数据集的多次聚类标签结果进行整合,进而得到一个更准确的重新划分。目前,聚类集成重点研究两方面的问题:一是基聚类集的生成;二是设计有效的一致性函数(consensus function),也称为共识函数的设计。现有的聚类集成方法大多是将基聚类的集合看作是一个分类型数据集,然后对这个集合进行聚类。但是这种方法没有结合数据点本身的属性值,忽略了原始数据集,因此形成最终聚类所使用的信息是不完全的。基于这一情况,本文针对集成聚类中一致性函数的设计做了以下研究,主要内容有:(1)在现有一致性函数的基础上提出了一种面向分类型数据的Cate-NIR聚类集成方法。这种算法运用了节点重要性的思想(Node Importance Representative),对一致性函数进行设计,并在UCI分类型数据集上设计实验证实了该算法的普适性。(2)运用提出的Cate-NIR算法思想,针对数值型数据的特殊性进行修改,提出了面向数值型的Num-NIR聚类集成方法,并在通用的数据集上设计实验证实了该算法的适用性。以上研究明显拓宽了聚类集成算法的研究范围,为一致性函数的设计提供了新的研究方向,同时也为聚类集成的研究打下了基础。相信此类算法的不断研究可以解决更多的实际问题。