论文部分内容阅读
在大数据时代,数据缺失的情况经常发生甚至是不可避免,不完备数据会影响到数据统计分析。若数据完备效果不佳,数据信息不能得到充分有效的利用。因此,缺失数据的处理是数据质量的关键影响问题,不完备数据的完备也是一项具有价值的研究。 本文首先综述了国内外关于不完备数据的研究方法,阐述了统计学、聚类、智能化三类完备化方法的相关理论。其次,通过构造函数集实验证明了数据分布特征对数据完备化效果影响较大;再介绍了数据完备的BP神经网络方法,是利用DBSCAN密度聚类方法对样本数据进行分类,分析其分布特征,剔除噪声数据选择训练样本,运用BP神经网络拟合数据属性间的非线性关系,预测数据缺失值;最后,分别对小麦种子和鸢尾花卉两个多元数据集的数据进行处理,选择一定的观察值作为实验数据,将完备的实验数据某一属性或者某些属性作为缺失项,运用最小二乘法、K近邻、考虑数据分布的BP网络方法和不考虑数据分布特征的BP网络方法进行完备化实验,预测缺失项的数值,计算准确率,比较四种方法的完备化效果。通过实例数据集分析可知,考虑数据分布特征的BP神经网络数据完备准确率最优。