基于支持向量机的高维度缺损数据补全算法研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:youi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺损数据的处理是机器学习领域数据预处理中一个无法避免的问题。特别随着数据采集的方式由人工采集逐步转向机器自动采集,数据数量的急速增长使数据的质量严重下降,缺损的数据就是导致数据质量下降的重要原因。采集数据失败、传输中数据丢失、传感器设备故障等原因都造成数据库中大量的空值。在机器学习领域中知名度最高的UCI数据库中也有高达40%以上的数据集含有缺损数据。美国霍尼韦尔公司中用于设备维护和测试的数据库中超过50%的数据集含有缺损数据。在医药领域的情况更加严重,因为数据收集方法的不规范等原因,超过60%的数据集含有缺损数据。  缺损的数据不单表示信息的空缺,还会严重影响到后续的机器学习工作。直接删除缺损数据、取平均值等一些快速简单的方法由于无法估计缺损数据对机器学习结果的影响,导致数据的客观性可能有较大的受损,降低了机器学习的准确性。国内外许多学者提出了各种缺损数据补全的方法,在不同应用环境下都取得了很好的效果,但是依然存在一些不足的地方。比如,基于决策树的缺损数据补全需要指定条件属性和类属性,这种方法每处理一个属性都要重新对整个模型进行训练,这种方法处理随机缺损属性的数据效率比较低。其次,很多情况下数据都拥有很多属性,形成一个高维度的模型,很多缺损数据补全算法在高维度数据上处理能力不强,使补全的效果不佳。最后,很多算法没有考虑到数据集大小的问题,在数据集小的时候能取得很好的效果,但是无法满足当今数据量急剧增大的情况。为解决上述问题,本文给出了一个基于最近邻相似度与支持向量机的缺损数据补全算法。创新性地把支持向量机和基于最近邻相似度的思想运用到缺损数据补全领域。针对数据量大的情况,本文提出了基于Map-Reduce的MINNS-SVM分布式的实现。  从两方面验证算法的有效性:一方面在高维度缺损数据上,MINNS-SVM算法对比传统的K-means补全算法和基于贝叶斯概率补全算法,真值与补全后的值均方差减少了3%~18%,另一方面补全后数据分类的准确率平均提升15%;在数据量巨大情况下,分布式MINNS-SVM算法能有效解决数据量大的缺损数据补全问题。
其他文献
中文地名识别属于中文命名实体(Named Entity)识别范畴,它是自然语言处理的基础任务之一,是机器翻译、信息检索、问答系统等技术的基础,中文地名在命名实体中占有很大比例。
随着计算机与网络技术的提高与普及,计算机机考、在线测试等广泛应用于社会化考试及网络教育中。随之而来的计算机辅助测评(Computer AssistedAssessment)技术也受到了更多的
随着互联网技术的日渐普及和高速发展,全球化通信网络已经成为大势所趋。但网络在提供巨大便利的同时,也存在种种安全隐患和威胁,其中危害最大影响最广的莫过于计算机病毒。
当今时代,因特网技术的发展呈现出日新月异的面貌,而P2P的出现更是作为一项崭新的革命性成果在业界掀起了轩然大波,它被广泛应用于我们的日常生活当中并将日趋完善。P2P即对
随着产品现代设计技术的不断发展,一些新的数字化设计方法在新产品的开发设计阶段得到广泛应用。协同设计、并行设计、虚拟设计等技术的研究已经成为现代设计技术领域研究的
随着计算机技术的飞速发展以及网络规模的日益扩大,网络逐渐深入到各行业领域和人们的生活中。如今,信息社会已经离不开网络,这就使得网络自身运行的稳定性和可靠性成为不容
随着计算机和网络技术的飞速发展,全球信息一体化的步伐越来越快,网络信息安全己经成为一个国家、一个集团、乃至一个企业寻求发展的一个重要因素。散列函数是密码学中一个重
近年来,随着计算机技术、多媒体技术及网络技术的快速发展,数据采集及视频传输系统正在向嵌入式、数字化和网络化的方向发展。进而随着嵌入式技术的出现以及人们对降低数据采
电子彩票方案以密码学为基础,运用计算机和网络技术来实现彩票的流程。使用电子彩票方案,不仅仅可以避免以往大量组织、出售、开奖等人力工作,而且也可以有效的减少人为因素
八十年代以来,人工神经网络的研究已经取得了巨大的进展。在此基础上发展起来的神经网络控制技术,已经成为自动控制领域的前沿科学之一。它已经成为智能控制的一个新的分支,为解