基于稀疏学习和流形学习的KNN算法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:jeep_lee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一种从大量复杂数据中,寻找、提取有用规律,形成有用模式,得到价值的过程。随着现代科技水平的发展,尤其是近年大数据概念的提出,我们正进入一个数据资源开发的时代,数据挖掘技术正得到越来越多的重视,在工业发展,医疗卫生,信息产业等诸多领域发挥着重要的作用。  KNN(K-最近邻)算法作为数据挖掘的“十大经典算法”之一,因为对复杂数据集性能优越,容易实现的特点,应用领域十分广泛。但KNN算法自身也存在着诸多缺点。例如K值如何选取便是个公开性难题,传统的K值由使用者自定义确定,但这种方法有很强的随机性,一定程度上依赖人员的经验。另外一些方法通过十折交叉法得到K值,虽然这种方法避免了K值选取的盲目性,可以确定具体的K值,但是计算量大,效率偏低,并且没有考虑到数据自身的结构特点。另外,真实的样本数据本身存在着噪声,传统的KNN算法对于实际样本存在的噪卢没有识别能力,敏感性较高,大量噪声样本的存在会影响形成模型和规则的准确性。其次,KNN算法需要做很多数据空间的转换,在进行投影变换过程中,数据本身的欧式距离会产生变化,造成的直接结果就是会改变样本之间的近邻关系,造成KNN算法进行相对距离计算时产生较大的偏差,如何保证在这种空间转换的过程中,依然能够保持数据之间相对不变的位置关系,保证近邻距离计算的准确性是一个难题。最后,传统KNN算法在使用样本时更多的是孤立的看待,忽略了他们之间存在的相关关系,数据本身的特点决定相同属性类型的样本之间存在相关关系,这种相关性的存在也保存着大量有用的信息。  为此,本文基于稀疏学习理论和流形学习理论知识,使用融合L2.1范式的最小二乘方模型重构的方法优化样本空间,自动确定KNN算法中的K值[1]。重构过程中充分利用样本间的相关关系,寻找样本之间的有用信息;本文应用的具有行稀疏性的L2.1范式,能使变换阵W具有很好的稀疏效果,具备去噪能力,并且能够选取合适的数据样本,压缩样本空间。考虑重构的过程中,投影变换时样本空间应保持数据结构近邻关系不变的问题,本文引入基于流形学习理论思想的LPP算法,以此保留数据间更多的近邻信息。本文定义这种可以通过自学习得到K值的最近邻方法为Self-Adaption KNN,简称为SA-KNN方法。本文将SA-KNN方法应用到分类和回归算法之中,并做了大量的对比试验,实验结果表明该方法比传统的KNN算法以及基于属性信息熵的Entropy-KNN算法效果更好[2]。
其他文献
随着互联网的应用与普及,网络安全问题成为人们关注的焦点。在已知的网络安全漏洞中,跨站攻击,SQL注入式攻击以及由整数溢出引发的缓冲区溢出漏洞近年来上升趋势最为明显,造成了
随着信息技术和网络技术的迅猛发展,人们获取信息的能力和渠道得到极大的扩展。海量数据在丰富人们资讯的同时,也给信息的组织、查找和分析带来极大的挑战。如何快速、准确地
自学考试作为一种高等教育形式,在承载着对自考生实施国家考试功能的同时,还承载着对自考生的培育功能。从培养人才全面发展要求来看,自学考试这种教育形式仍存在不足,主要是
资源管理是网格计算中最重要的组成部分之一。网格资源管理系统的有效性和适用性主要取决于其采用的资源调度策略。但是网格资源的分布性、异构性、自治性及动态性特点,决定
地震事件中由地震观测仪器所记录的波形数据不但是研究地震学的主要依据,而且是事件本身特点及相关信息的来源。地震波形数据蕴含着很多事件特征信息,可从波形数据中提取波形
随着计算机及网络技术的迅猛发展,非法用户或黑客通过网络对信息系统的入侵也越来越多,系统安全保护已经成为刻不容缓的问题,进行用户身份认证是实现系统安全保护的一个重要
目前,基于工作流技术的管理系统通常不易扩展,且系统间的集成兼容性较差。针对上述问题,本文研究了基于数据库的工作流技术,并将该技术应用于物资管理系统。本文首先研究分析
随着大数据时代的到来,数据以前所未有的速度急剧增长,大数据中蕴藏着无限的价值。传统的数据库技术由于缺乏良好的横向扩展能力等原因已难以应对这样的挑战,NoSQL数据库技术
在目前的研究中,有关人体动作的识别已经取得了很大的进步,但是在处理像weizmann数据库这样的多动作周期的视频数据时,采用一般的方法,识别率偏低。本文提出了一种新的基于整
优化技术是一种以数学为基础,用于求解各种组合优化问题的应用技术。最优化问题是人们在工程技术、科学研究、和经济管理等诸多领域中经常碰到的问题,它是指在满足一定的约束