基于度量学习的复杂数据聚类算法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:jincast
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的重要研究方向,其目的主要在于发现数据中隐含的类结构,将数据对象分成不同的簇或类,使得同一类的对象之间相似度较大,而不同类对象之间相似度较小。基于度量学习理论研究相似性度量函数是聚类分析的关键技术之一,随着度量方法和聚类技术的发展,国内外众多研究者已提出许多基于相似性度量的聚类算法,但面对海量高维复杂数据时,现有的度量方法和和聚类分析技术只考虑了样本的空间结构,忽略了样本间的相关性,导致分类准确率较低,且耗时过长等问题。本论文利用度量学习理论改进聚类分析方法中的相似性度量,并将数据降维算法与聚类算法相结合,提出了处理复杂数据的聚类算法,通过实验分析验证了这些算法的有效性。本文的主要研究内容总结如下:(1)针对传统近邻传播聚类算法在处理高维复杂数据时,只考虑样本的空间结构,容易造成错分,且迭代更新时容易陷入局部震荡,无法收敛,使聚类效果降低等情况,提出了基于局部线性嵌入(Locally linear embedding,LLE)和混合核函数的近邻传播聚类算法。首先,通过引入LLE算法将高维数据集映射到低维空间,以达到降维的效果;然后,依据全局核函数泛化能力强的特点,提出了新的全局核函数,并证明其符合Mercer条件;同时,将该全局核函数与高斯核函数进行线性组合,设计了新的混合核函数,以获得较好的泛化能力和学习能力;接着,利用提出的混合核函数构建了相似性度量及相似度矩阵,设计了基于混合核函数的近邻传播聚类算法;其次,在迭代更新步骤中引入了阻尼因子,使得每一次迭代的可用度和可信度值受上一次迭代值的约束,进而提高了算法的稳定性;最后,在若干个基因数据集和UCI标准数据集上进行仿真实验,通过几种聚类评价指标验证了改进后的近邻传播聚类算法的聚类精度比其他相关算法更高。(2)为解决传统密度峰值聚类算法难以处理大规模非平衡的复杂数据,且在计算数据点之间的距离时,忽略样本间的相似性和相关性,二维决策图选取聚类中心需要通过人工干预,影响聚类结果的客观性等问题,提出了基于Fisher线性判别的自适应密度峰值聚类算法。首先,引入了Fisher线性判别法对高维复杂数据集进行降维;然后,根据数据的局部结构特点,引入了高斯核密度估计方法计算各数据点的局部密度,定义了新的加权欧氏距离用于度量样本间的距离,利用Pearson相关系数绝对值的倒数作为权重,确保能够同时考虑样本的空间结构和样本间的相关性;同时,提出了密度估计熵,使其达到最小值来自适应地选取密度估计参数,消除了人工设定参数带来的误差;其次,构建了一种自适应选取聚类中心策略,避免了人工选择聚类中心影响聚类结果的客观性,进而设计了基于Fisher线性判别的自适应密度峰值聚类算法;最后,在若干个人工数据集、UCI标准数据集和基因数据集上进行仿真实验,证明了该算法能够更准确的选取聚类中心,并获得较高的聚类精度。(3)为解决传统双聚类算法不能准确发现重叠的双聚类簇,在处理高维复杂数据时,一致波动性效果较差等问题,设计了一种基于粗糙均方残基的模糊双聚类算法。针对高维复杂数据集,首先,对其缺失值进行填补,采用非负矩阵分解算法对高维复杂数据集进行维度约简,剔除冗余特征,筛选出有效特征子集;然后,为获取较大容量的双聚类簇,将粗糙集理论和模糊双聚类算法相结合,基于粗糙集的上、下近似集研究加权均方残差,提出了新的粗糙均方残基,构建了粗糙模糊双聚类算法,运用综合评判度量函数与贴近度原则对矩阵的行列进行删除和添加,得到了容量更大的双聚类结果;最后,在若干个高维复杂数据集上进行仿真实验,证明了该模糊双聚类算法是有效的。
其他文献
汉代西北边境地区粮仓工作内容繁杂,除粮食储备、发放等基本职责外还需负责异地廪食、粮食运输等工作;有时可能兼管与粮食无直接关联的事务。对此可以从地域和部门两方面分析。就地域而言,某一地区粮仓的管辖范围不限于其所在地区,对其他地区人员的廪食有时也是其责任。携带生食与炊具在外加工的不便,及可直接食用的熟食在边境地区的宝贵性,导致在途径地区获取粮食成为公务出行官吏最常采用的廪食方式。该方法要求该官吏所属地
3D打印技术作为一项新兴技术已经成为传统制造业转型升级的重要力量。其中,FDM 3D打印机因为控制系统相对简单,得到了社会的普遍认可。然而国内的FDM 3D打印机由于多采用封闭
近年来,随着我国市场化经济制度的不断完善,以企业产权交易为目的的资产评估行为越来越多。与此同时,我国房地产行业的集中度进一步加剧,房地产企业之间的并购交易频繁。对于房地产企业之间密集的产权交易行为,企业价值评估起到了至关重要的作用。企业价值评估主要有收益法、市场法和成本法三大基础方法。其中,市场法在企业价值评估中应用较少,但仍有很大的改进空间。由于选择可比公司受到许多客观因素的制约,故研究对价值比
盈余公告漂移(PEAD)又称盈余惯性,是一种违背“有效市场假说”的市场异象,由Ball在1968年发现并提出。其具体表现是盈余公告发布时存在着实际盈余和公告前预期盈余之差——未预期盈余(UE),公告发布以后一段时间内,个股累积收益受到未预期盈余大小的影响,当未预期盈余越大时,个股将获得更多的异常收益。随后学者发现盈余公告漂移现象存在于各国股票市场中,只是漂移程度和表现形式有所区别。盈余公告漂移意味
近些年来,移动机器人已广泛应用于日常生活、农业、工业、国防和科研等领域,成为科技发展中最有潜力的研究方向之一。在移动机器人技术中,机器人路径规划是一个极其重要的研
随着传感技术发展,传统传感器在众多应用中受限,光纤光栅传感器凭借许多传统传感器不具有的优势,得到了广泛应用。但普通光纤光栅传感器存在的应力与温度交叉敏感问题一直是影响其测量准确性的重要因素之一。对称熔融拉锥型光纤光栅可以较好解决该问题。本文提出利用熔融拉锥技术制备一种具有对称双锥形结构的光纤光栅。首先结合传输矩阵法建立其传感特性理论模型,对其传感特性给出了详细理论推导。其次研究影响啁啾系数的因素,
非反应性连铸保护渣是一种用Al2O3代替传统连铸保护渣中SiO2的CaO-Al2O3基连铸结晶器保护渣,将该保护渣应用于高铝高锰钢连铸生产过程中,可避免钢液中[Al]与传统连铸保护渣中
SAR层析技术具有对目标的三维(方位-距离-高度)成像能力,但由于散射点的高度变化信息被补偿丢失了,因而无法获取目标的形变信息。SAR差分层析技术是在SAR层析技术上发展而来,它不仅能够保持方位向-距离向合成孔径,还能在斜距垂向-形变速率向合成二维孔径,从而得到目标形变速率向的分辨能力。本文基于星载SAR影像数据,深入研究了SAR层析技术去斜及相位补偿方法,对大型金属目标的三维重建技术以及大型金属
松辽盆地南部长岭断陷下白垩统沙河子组广泛发育富有机质页岩,具有较大的页岩气资源潜力,是重要的勘探和开发层位。本论文在系统的文献调研的基础上,系统分析了长岭断陷构造
电潜泵举升工艺是海上油田常见的人工举升方式之一,监控电潜泵的流量,建立海上油田监测与流动管理系统中的虚拟计量模块,建立流量预测模型,预测海上油田电潜泵中原油的流量,