论文部分内容阅读
数据库技术以及计算机硬件技术的飞速发展使得搜集更多有用的数据成为可能。然而,大量的数据在一定程度上为描述特征、制定决策带来便利的同时,也将数据的处理者带入了“数据丰富,但知识贫乏”的窘境当中。为了打破这一窘境,高效处理数据、发掘潜在有用信息,数据挖掘技术在20世纪80年代应运而生,并得到了飞速发展。在数据挖掘的众多分支中,关联规则挖掘和分类的应用研究又是两个具有高活跃度的重要领域。由于它们都有挖掘相关性强的项目集的显著共性,将关联规则挖掘用于解决数据挖掘中的分类应用的研究工作也就逐步展开并深入了。研究发现,由于关联规则挖掘方法可以同时考虑多个属性之间的高置信度关联,将它用于分类应用往往可以获得比当前最为常用的决策树方法更高的准确率。本文在对国内外将关联规则用于分类应用的研究现状进行简要分析的基础上,首先介绍了数据挖掘的产生、基本概念、过程以及功能等。其中,又着重对关联规则挖掘进行了概述,包括其定义、经典算法,以及增量关联规则的更新等。随后,在第三章论证了提出面向分类预测的增量关联规则更新应用研究的必要性。在此基础上,提出了最小支持度阈值(minsup)和最小置信度阈值(minconf)发生改变时高效更新分类预测关联规则的一个改进算法,然后以此改进算法为基础,进一步提出了当目标数据集中数据增加或者减少时高效更新分类预测关联规则的两个新算法。论文对三个算法的算法基础、算法描述,以及算法有效性实验和结果分析分别进行了阐述。在第四章中,以UCI数据集中的German Credit Data真实银行信贷审核分类数据集作为实例进行了面向分类预测的增量关联规则挖掘系统的设计与实现,进一步检验了所提出的算法的有效性。本文所做的工作对于客户管理和商业应用中的面向分类预测的数据挖掘技术,如进行客户关系管理、商品销售分析、推进商业和金融业等行业智能化等方面都具有一定的指导和借鉴意义。