论文部分内容阅读
数据挖掘致力于从大型数据库中挖掘有价值的信息。然而,现实世界中的数据集往往不可避免地含有一些缺失数据。这使得数据挖掘算法的性能下降,甚至影响到知识发现的有效性。本文主要研究缺失数据的处理技术,并提出一个有效可行的缺失数据处理模型,朴素贝叶斯归因模型(NBI)。
通过缺失数据灵敏度分析发现,数据集中的缺失数据对分类器的预测准确率有明显的不利影响。在各种分类器中,朴素贝叶斯分类器对缺失数据最不敏感,适用于建立缺失数据归因模型。
在简单阐述了目前流行的缺失数据处理方法之后,本文提出了一种基于朴素贝叶斯分类器的新缺失数据处理方法——NBI模型。首先,确定需要进行归因的属性,然后将归因属性作为目标属性,利用数据集中的其他属性建立NBC分类模型,将归因问题转换为分类问题。最后,利用已建立的NBC模型预测归因属性中的缺失值,并用预测值替换缺失值,完成归因过程。
选取归因属性需要考虑两个方面:属性所含缺失数据的比例和属性对数据挖掘任务的重要程度。属性对数据挖掘任务的重要程度可以由基于信息增益的属性重要因子或基于决策树结构的属性重要因子确定。根据归因过程中的归因顺序相关性,NBI 模型可以分为三大类策略:顺序无关策略、顺序相关策略和混合策略。NBI 模型根据属性缺失数据率和属性重要因子相互加权来确定归因顺序。本文还通过基于决策树结构的属性选择策略来改进贝叶斯分类器预测准确率,从而提高了 NBI 模型的性能。本文在多个数据集上对 NBI 模型的不同策略进行了测试。实验发现,在所有缺失数据都需要处理的情况下,顺序无关策略是一个很有竞争力的策略。与其他缺失数据处理方法相比,NBI 模型的性能优于流行的均值/众数归因法和C4.5内置模型。而且随着缺失比例的上升,NBI 模型的优势更为明显。
最后,本文将研究成果应用于医疗数据集Clinics,并取得了良好的效果。NBI模型对提高病人住院持续时间(LOS)的预测准确率有显著作用,尤其是中期和长期的预测准确率有明显的提高。在 NBI 模型的众多策略组合中,仅对重要归因属性运用 NBI 模型进行归因,其效果要优于对全部归因属性进行 NBI 归因处理。