考虑数据分布特征的多元数据完备化方法研究

来源 :武汉科技大学 | 被引量 : 2次 | 上传用户:fenligood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据缺失的情况经常发生甚至是不可避免,不完备数据会影响到数据统计分析。若数据完备效果不佳,数据信息不能得到充分有效的利用。因此,缺失数据的处理是数据质量的关键影响问题,不完备数据的完备也是一项具有价值的研究。  本文首先综述了国内外关于不完备数据的研究方法,阐述了统计学、聚类、智能化三类完备化方法的相关理论。其次,通过构造函数集实验证明了数据分布特征对数据完备化效果影响较大;再介绍了数据完备的BP神经网络方法,是利用DBSCAN密度聚类方法对样本数据进行分类,分析其分布特征,剔除噪声数据选择训练样本,运用BP神经网络拟合数据属性间的非线性关系,预测数据缺失值;最后,分别对小麦种子和鸢尾花卉两个多元数据集的数据进行处理,选择一定的观察值作为实验数据,将完备的实验数据某一属性或者某些属性作为缺失项,运用最小二乘法、K近邻、考虑数据分布的BP网络方法和不考虑数据分布特征的BP网络方法进行完备化实验,预测缺失项的数值,计算准确率,比较四种方法的完备化效果。通过实例数据集分析可知,考虑数据分布特征的BP神经网络数据完备准确率最优。
其他文献
辨证地分析了情报学泛化现象,归纳了泛化的方式以及对情报学学科建设的正负面效应,然后从泛化的角度对情报学学科是回归还是重建的问题进行了探讨,提出了情报学泛化现象无可
对图书馆核心价值进行概述,从图书馆核心价值的研究意义、研究起源、研究内容、研究展望等方面进行了理论研究.
研究生学位论文是学校办学质量和学术水平的重要标志,实现高校图书馆这部分特色资源的网络化管理,能丰富馆资源,亦能提供高效、快捷信息检索平台.
科学技术的发展,知识经济时代的到来,对于第三产业,知识已成为企业的关键性资源。具有专业技术知识的员工作为知识的生产者,使得第三产业间的核心竞争演变为对人才的竞争。电信运
湿地生态系统是地球重要的生命支持系统,为人类提供生态系统服务和效益价值。2019年1月18日发布的《中国国际重要湿地生态状况白皮书》,表明我国对湿地生态系统安全的重视程度已日渐提升。而人类在对湿地进行利用和改造的过程中,往往只注重湿地的直接使用价值或市场价值,反而忽略了湿地生态系统的非使用价值。对湿地生态系统非使用价值的定量研究已成为当前研究关注的焦点,科学量化湿地生态系统的非使用价值,有助于生态
学位
  工期延误问题是是当今世界建筑业中普遍存在的问题,对于水电工程项目建设而言,这个问题尤为突出。它是导致工程项目进度、质量和投资目标失控及其工程项目建设各方发生纠纷
中图分类号:G623.24  新课标指出:“习作教学应贴近学生实际,让学生易于动笔,乐于表达,应引导学生关注现实,热爱生活,表达真情实感。”儿童的现实生活是多姿多彩的,其中不乏情趣生活,正是这样的生活,让他们时刻向往着,期待着。习作教学,如果紧扣儿童的这些“痒处”,把情趣教学进行到底,就易直达儿童的心理,儿童才易于动笔,乐于表达。  一、化“制造”为“需要”,初探情趣  纵观教材,习作要求,以命令
针对网络环境下高校图书馆用户信息需求的多元化多样化、专业化个性化、系统化集成化、新颖性时效性、自助性交互性、信息素养教育常规化等发展趋势,从引进资源、整合资源、
G623.2  《语文课程标准》指出:“写作能力是语文素养的综合体现。写作教学应贴近学生实际,学生易于动笔,乐于表达,应引导学生关注现实,热爱生活,表达真情实感。”小学语文教材中的课文多为中外名篇,是对学生进行习作训练最好的范例。在平时的语文教学中,我十分注重“课堂小练笔”。以课堂为阵地,以课堂教学为支点,以课文内容作为书写的材料或以课文内容为发散点、落笔点,把语言的运用与对课文的理解结合起来,只
在世界环境日益恶化的今天,企业在生产运营中所带来的环境影响也备受关注。上个世纪八十年代,学术界就开始了对企业积极环境战略的研究。多数学者研究认为企业积极的环境战略及