论文部分内容阅读
数字化时代的到来让我们面临着“数据膨胀知识匮乏”的困境,数据挖掘技术在这种大需求的背景下应运而生。聚类分析是数据挖掘领域的一个重要分支,半监督聚类算法更是近几年来科学研究的热点话题。半监督聚类方法融合有监督学习和无监督学习的优点,既充分利用了少量已标记的数据信息对聚类过程进行约束指导,又不需要对大量的数据进行标记,计算精度高,而且半监督聚类方法更贴近实际情况,容易实现。本文主要针对半监督的K-均值聚类算法进行系统的研究和改进,具体的研究工作安排如下:(1)论述了数据挖掘产生的背景和技术支持,并指出了数据挖掘的研究意义、应用背景和未来的发展方向。(2)针对核函数K均值聚类算法,论述核函数的性质,提出一种构造核函数的方法,并系统的论述了多核方法的构造理论,以及多核参数的优化选取问题,分析了多核学习的几种典型方法的特点和不足之处,并指明其进一步的研究方向。(3)针对高维数据处理的“维灾难”问题,提出使用多维尺度变换的方法进行降维,与CPA等多种降维方法比较,该方法不仅效果更佳而且保持了数据之间的内在关系。(4)提出一种新的衡量数据间相似性的方法,可以同时兼顾类之间和类内部的相似性度量,在此基础上提出自适应的寻求最佳聚类数方法,首先使用树聚类进行簇数的预估,减小计算的复杂度,然后运用自适应的方法,最小化目标函数,从而得到最佳聚类数。(5)针对以往的半监督聚类算法只能处理具有完备标签数据的缺点,提出一种处理不完备标签数据的半监督K均值聚类算法,并改进最优聚类中心的寻取算法,与最大最小距离法相比,计算复杂度大大降低。论文最后对本课题的工作做了总结,并进一步展望了下一步的研究方向。