论文部分内容阅读
数据挖掘是近年来蓬勃发展的一个研究领域,在信息爆炸的今天,它更显示出巨大的作用和威力。数据挖掘在金融、零售、医疗等各个行业有广泛的应用。本论文运用数据挖掘的分类技术,对信用卡客户按存款积数进行分类,以便能掌握每类客户的特征和交易行为,并且可以通过模型预测客户的价值。论文采用伸缩性好、效率高、准确率高、可解释性好的SLIQ算法作为基本的分类算法,采用AdaBoost算法提高分类的准确率。为了进一步提高分类准确率和速度,论文对SLIQ算法作了一些改进:用新的属性选择度量代替gini索引,用处理连续值属性的方法处理只有两个可能值的分类属性。算法经过改进后,在准确率和效率方面都有所提高,树也变得更小。实验结果表明,模型的测试准确率可以达到90%左右。由于客户及客户的金融行为都是随时间变化的,所以分类的模型也应该随时间变化而改变。针对这个问题,论文提出了一种增量学习方法:当新样本集的样本数达到或超过阀值时,用新样本集建立一个模型,与当前的模型合并,得到最新模型。模型的合并包括具有相同序号的决策树的合并和决策树权值的合并。决策树合并过程中出现了类标号不能确定和合并后碎片较多的问题,论文提出了有效的解决办法:(1)利用建树时预排序的属性表,确定合并后决策树叶节点的类标号;(2)采用剪枝的策略,合并相邻叶节点。决策树归纳法经推进后产生了由多棵加权决策树组成的分类模型。由于模型是由多棵加权决策树组成的,这给模型的解释带来了困难。论文采用简化模型为单一的决策树的方法:合并模型中的决策树,合并后的决策树的叶节点是模型中各棵决策树叶节点的交集,其类标号由各棵树投票决定的,树的权值决定其所投票的重要性。同样,合并后决策树也存在碎片问题,也需要合并类标号相同的相邻叶节点。实验表明,采用上述方法构建的分类模型,具有建模速度较快,模型准确率较高、可解释性较好的特点。增量学习方法也取得了学习效率较高,结果树增大不太多的效果。