缺失数据处理技术与NBI模型

来源 :上海财经大学 | 被引量 : 0次 | 上传用户：fsdgvii

【摘要】

：

数据挖掘致力于从大型数据库中挖掘有价值的信息。然而，现实世界中的数据集往往不可避免地含有一些缺失数据。这使得数据挖掘算法的性能下降，甚至影响到知识发现的有效性。本文

【作者】

：

雷蕾

【机构】

：

上海财经大学

【出处】

：

上海财经大学

【发表日期】

：

2006年期

【关键词】

：

朴素贝叶斯分类器数据挖掘数据处理缺失数据数据库医疗数据集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘致力于从大型数据库中挖掘有价值的信息。然而，现实世界中的数据集往往不可避免地含有一些缺失数据。这使得数据挖掘算法的性能下降，甚至影响到知识发现的有效性。本文主要研究缺失数据的处理技术，并提出一个有效可行的缺失数据处理模型，朴素贝叶斯归因模型(NBI)。通过缺失数据灵敏度分析发现，数据集中的缺失数据对分类器的预测准确率有明显的不利影响。在各种分类器中，朴素贝叶斯分类器对缺失数据最不敏感，适用于建立缺失数据归因模型。在简单阐述了目前流行的缺失数据处理方法之后，本文提出了一种基于朴素贝叶斯分类器的新缺失数据处理方法——NBI模型。首先，确定需要进行归因的属性，然后将归因属性作为目标属性，利用数据集中的其他属性建立NBC分类模型，将归因问题转换为分类问题。最后，利用已建立的NBC模型预测归因属性中的缺失值，并用预测值替换缺失值，完成归因过程。选取归因属性需要考虑两个方面：属性所含缺失数据的比例和属性对数据挖掘任务的重要程度。属性对数据挖掘任务的重要程度可以由基于信息增益的属性重要因子或基于决策树结构的属性重要因子确定。根据归因过程中的归因顺序相关性，NBI 模型可以分为三大类策略：顺序无关策略、顺序相关策略和混合策略。NBI 模型根据属性缺失数据率和属性重要因子相互加权来确定归因顺序。本文还通过基于决策树结构的属性选择策略来改进贝叶斯分类器预测准确率，从而提高了 NBI 模型的性能。本文在多个数据集上对 NBI 模型的不同策略进行了测试。实验发现，在所有缺失数据都需要处理的情况下，顺序无关策略是一个很有竞争力的策略。与其他缺失数据处理方法相比，NBI 模型的性能优于流行的均值/众数归因法和C4．5内置模型。而且随着缺失比例的上升，NBI 模型的优势更为明显。最后，本文将研究成果应用于医疗数据集Clinics，并取得了良好的效果。NBI模型对提高病人住院持续时间(LOS)的预测准确率有显著作用，尤其是中期和长期的预测准确率有明显的提高。在 NBI 模型的众多策略组合中，仅对重要归因属性运用 NBI 模型进行归因，其效果要优于对全部归因属性进行 NBI 归因处理。

其他文献

初中英语“导学案”教学的思考

“导学案”是建立在教案基础上针对学生学习而开发的一种学习方案.它能让学生知道老师的授课目标、意图,让学生学习能有备而来,教学过程中,教师扮演的不仅是组织者、引领者的

期刊

初中英语学生学习教学模式学生自主学习教师基础知识与能力学习的主人知识结构整体活动学习方案突出个性实用主义开发教学过程角色打破传统

武警基层干部激励因素与工作满意度及组织承诺关系的实证研究

在积极推进中国特色军事变革的新形势下，中国人民武装警察部队(以下简称武警部队)干部管理面临着新的机遇与挑战，如何对干部尤其是基层干部进行有效激励已成为当今部队军事管理

学位

中国人民武装警察部队中国人民武装警察部队基层干部基层干部激励因素激励因素工作满意度工作满意度组织承诺组织承诺

踏访天堂寨

安徽多名山.皖南的黄山早已闻名于世,而皖西的天堂寨似乎仍“藏在深闺人未识”,许多人只得闻其芳名,及至一睹玉容,怕也会相见恨晚的.rn天堂寨在金寨县境内.从六安向西南130余

期刊

天堂寨盘山公路迎春花金寨县杜鹃花西南皖西皖南桃花山林汽车名山六安境内黄山冬眠彩斑安徽

供应商伙伴关系对在线信息共享影响的实证研究

本文在总结、借鉴国内外专家、学者对于供应商伙伴关系与在线信息共享的相关研究成果基础之上，针对中国制造企业供应链管理现状，在企业基于资源的观点和资源依赖理论的基础上，通

学位

制造企业供应商伙伴关系在线信息共享电子商务

浅谈小学语文教学“三个环节”

教学工作是非常严谨的,每一位教师都应该严格的按照教学课程开展教学.笔者认为小学语文教学必须把握好三个环节:备课、课堂教学、课后辅导.把握好了这三个环节,才能提高教学

期刊

小学语文三个环节质量

警惕植原体病害——板栗黄化皱缩病

近日,《京郊日报》刊出一篇文章《密云金丝小枣40年后回“娘家”》,文中写到:时隔40年之后,在密云大地已经绝迹的密云“三宝”之一——金丝小枣,如今重回“娘家”。40年前,在

期刊

植原体板栗皱缩病害黄化小枣密云京郊日报枣产业金丝

智能健康硬件用户间歇性中止行为研究：基于拓展和修正的期望--确认模型

随着可穿戴技术的发展和全民健康意识的提高，以智能手环、智能手表、智能血压计和智能体脂仪为代表的智能健康硬件逐渐得到普及，这些智能健康硬件为个人健康自我管理开创了一个

学位

电子健康行业智能健康硬件间歇性中止期望-确认理论社会影响

基于产业集群模式的吉林省产业结构调整研究

产业结构调整是我国经济结构调整最重要的因素。同发达国家相比，我国目前的产业结构很不合理，吉林省也同样存在产业结构不合理的问题。通过对产业结构的现状进行分析，吉林省的产

学位

产业集群产业结构调整集群模式聚类分析法

构建“学导练”教学模式,让语文课堂绽放精彩

传统的讲授法在传授知识和应对考试方面发挥了很大的作用,但教师为了把教学内容讲深讲透,几乎占用了课堂内的全部时间.这样做不仅忽视了孩子的主体地位;而且也忽视了孩子的个

期刊

学导练分层自学目标培尖补差合作探究查漏补缺

基于语义Web的教育资源共享平台的构建

随着计算机、通信以及网络技术的发展和知识经济的兴起,我们已经进入以信息化、网络化为特征的信息时代。Internet已经成为获取、共享和利用各种信息资源的重要工具。然

学位

语义Web教育资源本体机器理解互操作

缺失数据处理技术与NBI模型

其他学术论文