大规模数据场景下的有监督（迁移）聚类技术研究

来源 :江南大学 | 被引量 : 2次 | 上传用户：zhangchenlin

【摘要】

：

人工智能经过60多年的发展已经取得了巨大进步,作为人工智能领域中最活跃分支之一的机器学习也相应地得到快速发展。聚类作为一种有效的数据分析方法和工具,一直以来,在学术

【作者】

：

陈爱国

【出处】

：

江南大学

【发表日期】

：

2017年01期

【关键词】

：

聚类算法模糊C均值极大熵知识迁移大规模数据增量式聚类多代表点

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人工智能经过60多年的发展已经取得了巨大进步,作为人工智能领域中最活跃分支之一的机器学习也相应地得到快速发展。聚类作为一种有效的数据分析方法和工具,一直以来,在学术界和工业界受到广泛关注和应用。然而,随着科学技术的不断发展和计算机技术的广泛应用,新的问题和挑战不断涌现,其中迁移场景下的聚类和大规模数据场景下的聚类是目前面临的两个突出问题。本研究课题主要关注的是上述两个场景下的聚类问题。我们在研究传统聚类方法时发现,直接使用传统聚类方法对迁移应用场景和大规模数据场景下的数据执行聚类任务时,往往不能获得理想的聚类性能或者有时甚至无法运行相关算法。其面临的常见挑战是:1)在迁移场景中,由于行业建立之初往往无数据积累或者采集到的数据样本量不足,亦或者由于采集设备的不稳定等因素导致采集到的数据样本受到了污染,在这样的情况下,如果直接使用传统的聚类算法,常常导致聚类性能不稳定甚至失效。2)在大规模数据场景中,由于要处理的数据样本量大,而用于处理的机器内存有限,不能一次装载所有要处理的数据,直接导致不能使用传统的聚类算法来对该数据进行处理分析。为了解决传统聚类算法应用到上述两种新兴应用场景时所面临的问题,本研究课题以经典模糊聚类算法为基础,以迁移应用场景和大规模数据应用场景为切入点,对相关算法进行改造和重构使其适应新应用场景的需求。主要内容安排如下:(1)第二章节至第四章节重点研究迁移应用场景下的模糊聚类算法改造和应用。其中第二章节至第三章节探讨的是对经典模糊聚类算法的改造和重构;第四章节讨论的是知识迁移在具体的图像分割应用中的使用。具体来说,第二章节是在模糊C均值(FCM)聚类算法的基础上,对其目标函数进行修改,提出了一个全新的PPKTFCM聚类算法。该算法同时满足两个规则:样本点与历史类中心点距离和极小规则和隶属度变化极小规则,由于两个规则的应用使得该新算法具有了知识迁移的功能,进而提高了其聚类性能。第三章节是在极大熵聚类算法(MECA)的基础上,同时加入两个新的约束规则:隶属度重要程度受约束规则和聚类中心点变化最小规则,产生了新的基于极大熵的知识迁移模糊聚类MEKTFCA算法。由于知识迁移的应用,提高了其在样本量不足和样本受到污染场景下的聚类性能。第四章节是通过修改经典FCM算法的目标函数产生新的目标函数,使新的目标函数中增加了能够吸收空间邻居知识能力的正则项。由于该正则项的加入提高了新算法在图像分割应用中的鲁棒性。(2)第五章节至第六章节重点研究了大规模数据应用场景下的模糊聚类算法改造和重构。其中第五章节参考了经典的基于增量式处理的历史在线模糊C代表点聚类算法(HOFCMD)和在线模糊C代表点聚类算法(OFCMD)的运行原理,但改进了这两种算法只使用单个代表点表示一个类时的不足,提出了应用于大规模数据场景的增量式多代表点模糊聚类MMFCA算法。该算法通过多个代表点使得每个聚类信息更加丰富,同时在聚类过程中考虑历史聚类点对之间的约束关系,进而提高了新提出的MMFCA算法的聚类性能。第六章节是受OFCMD和FC-QR算法思想的启发。提出了具有加权代表性,二次正则化和成对约束三重优化机制的基于多代表点的大规模数据模糊聚类LS-FMMdC算法。该多重优化机制和多代表点的使用贡献了最终LS-FMMdC算法在聚类性能上的提高。需要说明的是,第五章节和第六章节重点探讨的是大规模数据应用场景下的聚类问题。其中在处理大规模数据集时使用的是数据分块技术,在处理数据块时包含着先前数据块获得的知识迁移到后续数据块的机制。所以,该两章节是大规模数据场景和迁移场景的综合研究。

其他文献

川西北地区金成矿的构造—岩浆控制

对川西北地区金成矿 ,前人曾过多重视构造—岩相及沉积体系的控矿作用 ,而对构造—岩浆活动的控矿作用关注不够。该文从研究区构造—岩浆活动与金成矿演化 ,构造—岩浆带展布

期刊

构造—岩浆控制致矿地质异常金成矿川西北

生物医学文本中药物信息抽取方法研究

随着生物医学研究及互联网技术的发展,互联网上可获取的生物医学文献数量急剧增长。海量非结构化的生物医学文献中蕴含着丰富的、有价值的知识。药物作为一种被广泛研究的生

学位

生物医学文本药物信息抽取药物名识别药物相互作用关系抽取

系统性红斑狼疮和梅毒患者抗磷脂抗体比较及意义

目的:比较系统性红斑狼疮(SLE)和梅毒患者血清抗磷脂抗体(APA)的异同及其意义。方法:应用ELISA和快速血浆反应素环状卡片试验(RPR)法检测32例SLE和77例梅毒患者血中6种抗心磷

期刊

抗磷脂抗体系统性红斑狼疮梅毒

管理者性别刻板印象及其性别差异研究

管理者性别刻板印象是指人们“一想到管理者就想到男性”的比较固定的期望或看法。国外对管理者性别刻板印象的关注较早，20世纪70年代，美国葛底斯堡大学管理学教授Schein就制定

期刊

管理者性别刻板印象方差分析实证研究女性管理者高管特征性别差异

一种基于可拓学的资源开拓方法

对于任何一个组织而言，都有资源的管理和利用问题。本文利用可拓学中可拓集合与关联函数的知识，建立了可拓资源的形式化定义。为企业从多方面寻找自身优势，提高竞争力，提供了更有

期刊

可拓学可拓集合可拓资源

儒家文化、市场化程度与企业社会责任

非正式制度对企业行为的影响已成为新制度经济学领域的研究热点之一。以2009~2017年参与润灵环球责任评级(RKS)的上市公司为研究样本,探讨非正式制度之儒家文化对企业承担社

期刊

儒家文化市场化程度企业社会责任非正式制度正式制度

ISO9002标准对建筑企业机械管理工作的要求

期刊

建筑企业机械管理ISO9002标准

图像处理中去噪与超像素生成算法研究

视觉是人类获取信息的主要方式之一。图像在人类工作和生活中充当着异常重要的角色。图像处理就是指从图像中提取信息的关键技术,在工业和生活等各个方面都有广泛的应用,如农

学位

图像分割超像素图像去噪视频去噪稀疏性低秩性聚类网格简化

大规模数据场景下的有监督（迁移）聚类技术研究

其他学术论文