数据挖掘中半监督K均值聚类算法的研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:llsnow_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字化时代的到来让我们面临着“数据膨胀知识匮乏”的困境,数据挖掘技术在这种大需求的背景下应运而生。聚类分析是数据挖掘领域的一个重要分支,半监督聚类算法更是近几年来科学研究的热点话题。半监督聚类方法融合有监督学习和无监督学习的优点,既充分利用了少量已标记的数据信息对聚类过程进行约束指导,又不需要对大量的数据进行标记,计算精度高,而且半监督聚类方法更贴近实际情况,容易实现。本文主要针对半监督的K-均值聚类算法进行系统的研究和改进,具体的研究工作安排如下:(1)论述了数据挖掘产生的背景和技术支持,并指出了数据挖掘的研究意义、应用背景和未来的发展方向。(2)针对核函数K均值聚类算法,论述核函数的性质,提出一种构造核函数的方法,并系统的论述了多核方法的构造理论,以及多核参数的优化选取问题,分析了多核学习的几种典型方法的特点和不足之处,并指明其进一步的研究方向。(3)针对高维数据处理的“维灾难”问题,提出使用多维尺度变换的方法进行降维,与CPA等多种降维方法比较,该方法不仅效果更佳而且保持了数据之间的内在关系。(4)提出一种新的衡量数据间相似性的方法,可以同时兼顾类之间和类内部的相似性度量,在此基础上提出自适应的寻求最佳聚类数方法,首先使用树聚类进行簇数的预估,减小计算的复杂度,然后运用自适应的方法,最小化目标函数,从而得到最佳聚类数。(5)针对以往的半监督聚类算法只能处理具有完备标签数据的缺点,提出一种处理不完备标签数据的半监督K均值聚类算法,并改进最优聚类中心的寻取算法,与最大最小距离法相比,计算复杂度大大降低。论文最后对本课题的工作做了总结,并进一步展望了下一步的研究方向。
其他文献
逆散射问题是出现在工程领域里的一类重要的反问题,其任务是利用散射场的部分信息(如其远场数据)来探测散射体的信息。在求解逆散射问题时,一类重要的方法就是探测法,即首先利用远
本文主要研究保险公司在两家再保险公司参与下的最优分红、注资策略问题.为控制风险,保险公司与两家再保险公司在方差保费准则下采用不同的参数进行费率定价.首先,为避免破产,保险公司会吸引其他公司进行注资:但注资过程中会产生很多交易费用,在最小费用的目标下,应用动态规划的方法,找到最优的注资和再保险策略,然后进行敏感性分析;其次假设公司不仅有注资,还有分红,同样的我们结合实际,充分考虑了该过程中出现的交易
Sine-Gordon方程起初是在研究微分几何中的高斯曲率时提出的,1962年Josephson首次将其应用到超导体中的Josephson结中,以后出现在凝聚态物理、非线性光学等领域中。由于Sine-Go
图像的边缘提取是图像处理中最基础、最重要的研究内容之一。以图像边缘提取为前提的目标轮廓匹配是图像理解和自动识别的关键技术之一。图像的边缘提取算法和目标轮廓匹配方
排序问题本质是一类组合最优化问题,即要找到一个最优算法来求出该问题的最优解。对于几类经典排序问题,已经找到最优算法并且获得最优解。但在实际生产生活中,由于某些前提因素
随着非线性数学和量子数学的快速发展,组合数学中复杂的积分运算与有限的求和公式是制约研究进展的重要因素。本文构造以指数算子作为形式解的差分方程,并利用q-差分方程形式解
热流耦合问题在地热资源开发利用、放射性废物处置、天然气开发、地下水开采等方面都广泛存在.本文对高维热流耦合模型进行分析,推导出方程的离散格式,对所得离散格式方程组进
利用结构元理论研究三种模糊贝叶斯静态博弈。针对具有模糊收益的贝叶斯静态博弈模型,给出了多元模糊值函数的定义及其结构元表示;给出了在混合策略下,收益模糊的贝叶斯纳什均衡
汇率对经济贸易、资本流动等经济活动有着重要的影响,因此,能够准确的预测汇率的变动方向和变化程度具有重要的意义。本文主要研究了人民币/美元汇率数据的分形特性,采用分形滤