【摘 要】
:
随着网络技术、数据存储和数据采集能力的快速发展,每天都会产生大量的数据,如何从这些大量的数据中提取出有价值的信息就变的极其不容易。在大数据时代聚类算法已经成为获取有用信息不可或缺的重要手段。无论是什么聚类算法都有其优点和缺点,没有单一的聚类算法能够处理所有类型的数据结构和群集形状。对于一个给定的数据集,如果是毫无先验知识的情况下,这就会很难选择哪种聚类算法来完成给定的聚类目标。集成聚类方法的提出为
论文部分内容阅读
随着网络技术、数据存储和数据采集能力的快速发展,每天都会产生大量的数据,如何从这些大量的数据中提取出有价值的信息就变的极其不容易。在大数据时代聚类算法已经成为获取有用信息不可或缺的重要手段。无论是什么聚类算法都有其优点和缺点,没有单一的聚类算法能够处理所有类型的数据结构和群集形状。对于一个给定的数据集,如果是毫无先验知识的情况下,这就会很难选择哪种聚类算法来完成给定的聚类目标。集成聚类方法的提出为数据的挖掘提供了一个更好途径,能够很好的克服聚类算法中的一些不足。集成聚类主要是结合了集成学习的思想,首先运行聚类算法来获取多个基聚类,然后通过一致性集成得到集成聚类结果。本文对集成聚类算法的原理和方法进行了深入的研究。目前已有许多国内外学者提出了不同的集成聚类方法。大多数集成聚类方法都是基于图划分的方法,但是几乎所有的基于图划分的集成聚类方法,集成聚类得到的结果并不是最终聚类结果,还需要利用聚类算法来获得最终聚类结果,在整个过程中会使得解由离散—连续—离散的转变。这就会使得最终得到的聚类结果与真实结果有较大的偏差。而且大多数方法忽视了基聚类质量的高低,若所得的基聚类质量很差时就会在一定程度上降低最终聚类结果的准确率。本文针对上述所描述问题进行了较为深入的研究工作。主要内容包括:1、对集成聚类算法框架的整体过程进行了详细介绍,并将整个过程总结为基聚类生成和一致性集成两个阶段,详细总结并分析了现阶段已有的一些典型算法,同时两种比较流行的聚类评价指标进行了介绍。2、提出了一种基于双边集成聚类算法。在给定的数据集上分别多次执行k-means算法产生多个基聚类结果;通过将基聚类结果和样本构建二部图,并对基聚类和样本同时聚类直接得到最终的聚类结果。通过实验将所提出的算法与其他集成聚类算法在真实数据集上进行了性能的比较分析。3、提出了基于谱聚类的双边集成聚类算法。该算法通过在给定的数据集上分别多次执行谱聚类算法产生多个基聚类结果;然后通过标准互信息来对基聚类结果进行选择;最后对基聚类结果和样本同时聚类得到最终的聚类结果。通过实验将所提出的算法与其他集成聚类算法在真实数据集上进行了性能的比较分析。针对已有大多数基于图划分集成聚类算法在一致性集成阶段只考虑样本与样本或基聚类与基聚类之间的潜在信息,忽略了样本与基聚类之间的潜在信息,不能直接得到最终的聚类结果,而且忽略了基聚类的质量对集成聚类结果的影响。本文提出了两种集成聚类算法。所提的新方法进一步丰富了聚类分析技术,通过一系列的实验验证了所提出算法的有效性。
其他文献
微藻作为极具前景的生物柴油新原料,通过基因工程手段进一步增加其脂质的积累量是当前微藻产油的重要课题。3-磷酸甘油脱氢酶催化糖酵解中产生的二羟丙酮磷酸向3-磷酸甘油转化
商业资本理论是马克思主义政治经济学的重要组成部分,也是马克思剩余价值理论的重要内容,其主要内容包括商业资本及其作用、商业利润及其实现、流通费用及其补偿、商业危机等。马克思商业资本理论创立一百多年来,商业资本运行的条件、环境发生了重大变化,亟待进一步作出科学解释,同时需要对于马克思商业资本理论面对的相关错误观点予以批驳。所以,无论从商业资本运行的现实环境看,还是从商业资本理论的学术研究层面进行分析,
生物材料科学是介于材料科学与生命科学之间并相互渗透而产生的一个重要边缘学科。生物材料发展与进步的根本源动力是健康的需要。人们对生物材料与生命体相互作用的现象和规
手术调度是医疗调度中最重要的问题之一,它关系着医疗机构的运转和患者的周转。医疗机构通常采取集中式调度的形式,由手术调度中心进行统一的调度及管理。然而手术的流程复杂且具有不确定性,这为手术的集中式调度带来阻碍。国内外大多数医院仍缺乏科学的调度方法和技术,因此医疗机构都迫切的希望能够针对手术调度问题的特点,寻求更加具有适应性的调度方法来优化手术调度。手术调度流程中,手术室(OR)是最重要的资源,同时也
作为自然计算的新领域,膜计算的目的是从生物细胞的结构和功能的模拟中,创建一种分布式并行计算模型,使得该模型具有良好的计算性能。自膜计算提出以后,研究者们已经证明膜计算模
本文开发了一套应用于生物神经信息分析的多功能实验平台,其具有如下功能:(1)引导实验对象者(人或实验猴)按照要求执行指定的伸展抓握任务;(2)连接多台生理学信号采集设备并执行设
线虫作为一种重要的模式生物,具有结构简单,生命周期短,繁殖能力强等特点而被用于神经生物学研究。其神经系统结构简单,可分为运动神经元、感觉神经元、中间神经元等几大类。线虫
我国中东部地区(27°-40°N,110°-124°E)是中尺度对流系统(MCS)频发地区之一,夏季由MCS引发的强对流灾害性天气频繁发生,严重威胁了当地人民的生命财产安全,造成了惨重的经济损失。
近年来,关于平流层与对流层的相互作用,尤其是平流层的重大异常对对流层气候变化的影响越来越受到重视。本文利用NECP/NEAR再分析资料和全国160站点的温度、降水资料,借助气候统
水运工程是指港口工程、航道工程、航标工程、通航建筑物工程、修造船水工建筑物工程、安装工程和支持系统及其辅助和附属工程等。水运工程建设作为重点的建设项目之一,应对