基于耦合度量的多尺度聚类挖掘方法

来源 :河北师范大学 | 被引量 : 0次 | 上传用户:sunny888999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多尺度数据挖掘领域研究的深入,多尺度分析在遥感图像识别、疾病检测、故障诊断以及聚类分析等领域的应用越来越成熟。然而已有的多尺度数据挖掘主要是针对数值型数据集进行定量分析与预测,对具有多尺度分类属性型数据集研究很少,尤其对于非独立同分布的分类型数据集的内在相似性度量没有得到实质性的解决。论文结合多尺度聚类数据挖掘理论与相似性度量方法,从多尺度聚类数据挖掘任务入手,构造分类属性型多尺度数据集聚类模型;利用无监督耦合度量相似性方法,提出针对非独立同分布的分类属性型数据集的基准尺度聚类挖掘算法;依据层次聚类中凝聚层次聚类思想及Lanczos插值理论,构建尺度转换模型,有效降低多尺度聚类数据挖掘中的尺度效应。本文以非独立同分布的分类属性型多尺度数据集为研究核心进行聚类分析,完成的工作主要包括以下几个方面:(1)研究分类属性型数据集的多尺度聚类理论基础。以耦合度量相似性理论为基础,通过综合考虑属性内和属性间的相似性,提出用于分类属性型数据集的多尺度聚类方法,将多尺度聚类方法扩展到分类型数据领域,完善多尺度聚类方法,为后续分类型数据集的多尺度聚类分析提供理论基础。(2)构建基于耦合度量的多尺度聚类算法框架。基于耦合度量相似性方法提出用于分类属性型数据集的多尺度聚类挖掘方法。首先,对非独立同分布的分类型数据集进行预处理;然后,基于尺度划分及基准尺度选择方法选择最合适的基准尺度;最后,结合耦合度量相似性方法构建多尺度聚类体系结构。(3)提出多尺度聚类算法。结合数据集划分与基准尺度选择方法,提出基于耦合度量的基准尺度聚类方法;基于凝聚层次聚类思想,提出多尺度聚类尺度上推算法;分析Lanczos插值的实质,从不同层面考虑已知样本点对待估样本的贡献率,结合基于三次卷积的尺度上推思想,提出多尺度聚类尺度下推算法。(4)验证与分析基于耦合度量的多尺度聚类算法。利用UCI和Kaggle公共数据集以及H省真实全员人口数据集对本文提出的算法和模型进行验证与分析。以CMS、IOF、HM等相似性度量方法与谱聚类相结合为对比算法进行实验。结果表明,构建的基于耦合度量的基准尺度聚类算法、基于单链的尺度上推算法和基于Lanczos插值的尺度下推算法在尺度转换过程中,在NMI、MSE和F-score等指标中分别有不同程度的提高,且具有较短的运行时间。实验证明,所提出的基于耦合度量的多尺度聚类算法具有有效性和可行性。
其他文献
随着机器智能化步伐的加快,越来越多的服务型机器人走进千家万户,人们已经不再满足于过去的“一问一答”式虚拟机器人,多功能、高要求的虚拟机器人成为研究的热点。人们在与虚拟机器人交流的过程中,希望得到虚拟机器人的反馈,尤其是情感上的反馈,而反映情感最重要的信息是面部表情。因此,如何给虚拟机器人一个逼真的外形并能够像人类那样自如的做各种表情动作是当前急需解决的问题。具体表现在:首先,如何对虚拟人的嘴唇、眼
随着网络规模日益增大,网络复杂性不断增加,网络的攻击也层出不穷,传统的网络安全防御措施是单一的安全设备各自防御,显然已经无法应对越发严峻的网络安全问题,应该转向融合
随着计算精度需求的提高和计算区域规模的不断扩大,模拟流动传热问题所需周期越来越长,并行算法可以提高计算效率,缩短模拟周期,在实际计算中获得了广泛的关注。GPU(Graphics
熔化极气体保护焊(GMAW)工艺性能优良,广泛地应用于船舶、石油化工等工程领域。实际生产中,从业人员的不规范操作可能导致产品的焊接质量出现波动,因此实现对焊接过程的实时
随着互联网、传感器等技术深入到人们生活的各个方面,数据产生的速度越来越快。新数据中隐藏着各种有价值的信息,通过挖掘利用这些信息,给人们的日常生活提供了更多的便利。在很多应用场景中,信息通过数据流的方式提供给用户,通常这些信息带有非常强的时效性,很少存储在传统数据库中,而是必须在生成时进行“即时”处理。此外,由于应用场景的不同,通常每种数据流只提供部分信息,结合多种来源的数据流,获取完整的信息成为势
在金融创新及混业经营大背景下,我国金融服务呈现日益复杂化的趋势。具体到金融服务领域,金融机构与金融消费者遵循意思自治原则订立金融服务合同,双方具有平等的法律地位。但由于金融行业的专业性及金融商品的复杂性、风险性等特点,二者在订立金融服务合同时往往处于严重的信息不对称状态。金融消费者因其在专业知识、交易经验、信息收集等方面存有弱势,难以全部知悉并理解与缔约有关的重要信息,这就要求我国金融机构履行相应
无模型自适应控制算法(MFAC)与基于模型的自适应控制算法(MBC),在被控对象、研究方法、对模型的处理、控制器的设计思路等方面均有着本质区别。MFAC算法是一种无需系统精确模型,不利用系统动力学信息进行控制器设计的数据驱动控制方法。该方法具备先进控制器的特征,具有较强的系统适应性、抗干扰能力和输出跟踪性能。论文的主要工作如下:首先,提出了一种改进型无模型自适应算法(HIU-MFAC),即通过改变
吡唑啉酮骨架作为一种含氮杂环,广泛存在于许多天然生物碱和药物分子中。近年来,针对吡唑啉酮化合物的生物活性及新合成方法的研究引起了众多学者的关注。人们开发了许多关于
北斗卫星导航系统部署了IGSO试验卫星(I1-S),并基于前期的转发式GEO卫星测定轨基础,考虑在I1-S上开展转发式测定轨试验。在这一背景下,本文设计研制了IGSO卫星转发式测定轨系
光电化学分解水可进一步实现太阳能到氢能的转化,是太阳能转换存储的理想途径之一。半导体可以同时作为光吸收器和能量转换器,是太阳能转化的关键。本论文选择了ABO3钙钛矿型