基于聚类和密度裁剪的改进KNN算法

来源 :青岛大学 | 被引量 : 0次 | 上传用户:gmglass
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
形形色色的信息汇聚成浩瀚的数据海洋,如何快速对数据进行准确的分类并从中提取出有用的信息已经成为人们面临的一大现实问题,因此,如何解决这一难题的工作已经逐渐变成了一类热门的研究课题,即数据挖掘。数据分类作为数据挖掘的重要一环,其主要目标是通过采用一些高效的分类算法,来尽可能准确地预测待测样本的类别,其中KNN算法作为一种比较经典的分类算法,准确率高,简单有效。但是经典KNN算法在处理样本数繁多的样本集时需要巨大的计算量,从而使得数据分类过程消耗过多的时间。本文提出了一种改进KNN算法,该算法在训练阶段首先根据样本密度对整个训练集进行裁剪,然后将裁剪好的训练集进行聚类处理,得到了若干个密度比较均匀的类簇,接下来以类簇的形心向量为球心,类簇中心到与之距离最远的样本点之间的距离为半径,将类簇转化为超球,并根据超球所包含的样本数在其所属类别的总样本数中所占的比例为其赋予权值。在测试阶段,采用了基于k个超球和基于1个超球的两种侧重点不同的测试方法,其中,基于k个超球的方法更侧重于使算法取得更高的准确率,而基于1个超球则更侧重于使算法耗费更少的分类时间。由于在训练阶段有效地降低了训练样本数并且改善了样本的分布情况,因此测试阶段的计算量会大大下降而且准确率也得到了一定程度的改善。最后在选取的10个UCI样本集上对本文算法进行模拟实验,实验结果表明,本文提出的算法是一种有效的分类方法,它在分类准确率和分类时间这两个方面均取得了良好的实验结果。
其他文献
磁感应治疗(或称磁介导热疗)是近年来发展的一种肿瘤热疗新技术。目前临床肿瘤或器官的勾画和分割极大程度依赖医生手工操作,速度和效率均比较低,对于适形热疗是一大技术难点
容迟网络是一种新型的网络体系结构,具有间断性连接、频繁割裂、时延高等特点。因此容迟网络中节点采用“存储-携带-转发”的路由模式。目前,如何做出更加高效的路由选择是无
目的:本课题采用隔姜药灸小腹部联合曼月乐的方法治疗寒凝血瘀型子宫腺肌病,通过对治疗前后的中医证候积分、痛经程度积分、子宫体积大小及CA125值变化等情况进行疗效观察和统计分析,科学评价其临床疗效及安全性,为子宫腺肌病患者提供更为有效的新方案,推进中西医结合药物在临床中的进一步推广与应用。方法:选择2018年09月至2019年12月期间在石家庄市中医院妇科门诊及住院的患者,将收治的60例子宫腺肌病(
随着移动智能设备的大量普及,人们日益依赖于蜂窝网络,这给现有的蜂窝网络造成了巨大负担。为解决这一问题,人们提出将蜂窝网络中冗余的数据流量转移到拥有大量空闲资源的机
随着无线移动通信应用范围的不断扩展以及传输的数据量飞速增加,带宽的局限性显得尤其突出。为在有限的频谱资源的前提下实现更有效更高速率的数据传输,从而提出了超奈奎斯特
不礼貌话语,相对于礼貌话语而言,一直被人们误解为一种边缘化的语言现象,因此导致了对不礼貌话语研究的相对缺失。近年来,随着人们对不礼貌话语的重新定位,越来越多的学者意识到了其重要性,礼貌研究领域出现了“不礼貌转向”。纵观研究文献,发现国外学者对于不礼貌话语研究主要聚焦于机构话语,对于个人话语及中国特有的诗词研究较少。苏轼历来以耿直率性出名,史料记载了许多其间接不礼貌的话语,本论文以此为出发点,从中华
目的检测生长分化因子15(GDF15)在膀胱癌中的甲基化状态,探讨其启动子区异常甲基化对于膀胱癌发生发展的作用。方法应用重亚硫酸盐测序PCR(BSP)联合T-载体PCR产物(TA)克隆检
近年来,城市化进程的加速发展已将土地原有的水文条件破坏,现今的城市建设存在诸多与水有关的问题,如:内涝灾害频发、水污染严重、水资源匮乏等。这些问题严重威胁到我国居民的生命财产安全,生活环境质量也得不到基本的保障。为解决以上问题,自2014年以来,住房与城乡建设部、财政部、水利部等多个部门发布了相应政策文件,各级地方政府积极响应政策号召,围绕海绵城市的建设理念对城市建设进行着翻新与改造。目前,海绵城
全波形反演(FWI)是近年来发展起来的一种较为热门的地震成像技术。相比于常规的地震反演方法,该方法可以利用到更多的地震波场数据,具有更高的反演精度。虽然近年来该方法得到了长足的发展,但是由于三维弹性全波形反演过高的时间成本,目前对该方法的研究仍然多集中于二维以及声波领域。而实际的地质情况是三维的,所以二维反演方法可能会存在一些问题。例如:在不知道地质构造走向的情况下,二维反演可能会得到错误的反演结
目前大多数手背静脉识别的研究集中在用户高配合度、单采集设备的条件下,而在互联网非常普及的现今社会,存在着不同的采集设备、不同的地域环境、不同的手背摆放姿势以及用户