基于增量分类方法的信用卡客户分析

来源 :华侨大学 | 被引量 : 0次 | 上传用户:wenjuanliu_b06213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是近年来蓬勃发展的一个研究领域,在信息爆炸的今天,它更显示出巨大的作用和威力。数据挖掘在金融、零售、医疗等各个行业有广泛的应用。本论文运用数据挖掘的分类技术,对信用卡客户按存款积数进行分类,以便能掌握每类客户的特征和交易行为,并且可以通过模型预测客户的价值。论文采用伸缩性好、效率高、准确率高、可解释性好的SLIQ算法作为基本的分类算法,采用AdaBoost算法提高分类的准确率。为了进一步提高分类准确率和速度,论文对SLIQ算法作了一些改进:用新的属性选择度量代替gini索引,用处理连续值属性的方法处理只有两个可能值的分类属性。算法经过改进后,在准确率和效率方面都有所提高,树也变得更小。实验结果表明,模型的测试准确率可以达到90%左右。由于客户及客户的金融行为都是随时间变化的,所以分类的模型也应该随时间变化而改变。针对这个问题,论文提出了一种增量学习方法:当新样本集的样本数达到或超过阀值时,用新样本集建立一个模型,与当前的模型合并,得到最新模型。模型的合并包括具有相同序号的决策树的合并和决策树权值的合并。决策树合并过程中出现了类标号不能确定和合并后碎片较多的问题,论文提出了有效的解决办法:(1)利用建树时预排序的属性表,确定合并后决策树叶节点的类标号;(2)采用剪枝的策略,合并相邻叶节点。决策树归纳法经推进后产生了由多棵加权决策树组成的分类模型。由于模型是由多棵加权决策树组成的,这给模型的解释带来了困难。论文采用简化模型为单一的决策树的方法:合并模型中的决策树,合并后的决策树的叶节点是模型中各棵决策树叶节点的交集,其类标号由各棵树投票决定的,树的权值决定其所投票的重要性。同样,合并后决策树也存在碎片问题,也需要合并类标号相同的相邻叶节点。实验表明,采用上述方法构建的分类模型,具有建模速度较快,模型准确率较高、可解释性较好的特点。增量学习方法也取得了学习效率较高,结果树增大不太多的效果。
其他文献
将研究型大学的教学质量评价从高校中分离出来是目前的趋势.本文在着重分析高校教学系统本质特征的基础上,初步构建了研究型大学教学质量评价的一级和二级指标体系,并利甩专家咨
对机床制造商Liechti Engineering而言,工艺可靠性占据着至高无上的地位。因为恒定的夹紧力是不可或缺的要素,那么所采用的刀具夹紧系统就有着重要的意义。多年来,这家瑞士企
薄壁锥度工件是航天某型号零件的关键工件。通过多次试验,结合多次热处理(即时效处理)控制变形,再利用工艺头、加工工装及优化加工工艺,解决了加工薄壁LY12-cz材料易变形的难点
20世纪末以来,前中央计划经济国家向市场经济转轨成为一种十分重要的国际现象,引起了世界各国的普遍关注。经济转轨不仅关系到各经济转轨国家经济发展的速度和质量,而且直接
以“硫锌-30”为光亮剂的线材连续镀锌已有近百家工厂应用,其中以华北、华中和中南地区为多。其特点9根据机械部电镀检测中心检测):电流效率为99.7%,光泽度502.6(基体光泽度123.8),镀层脆性经杯突试验,杯
针对蝶阀阀体的结构特点,设计出一种分离式正向进给锪孔刀具。该锪刀解决了反锪加工无法实时观察加工状态及其由此带来的可能性刀具损坏问题,深受操作者好评。
生物技术产业属于高新产业,对各方面要求较高,本身技术含量高、前期成本大、风险高且回报率高.人们对其有着巨大需求,部分人为了其中巨大利润采用垄断手段.在这样的背景下,有
大学语文课堂中的现当代文学教育是大学文学教育中的重要组成部分,有利于拓展学生对本民族历史文化的了解,丰富学生的文学积淀,提高学生的艺术审美和人文素养,同时用文学激发
我国以房地产为代表的传统建筑业已经达到了前所未有的规模,它一方面极大地加快了我国的城市化进程,但另一方面,高耗能、高污染、高浪费、粗放型的现场人工作业,对生态、城市
基层人力资源社会保障公共服务平台建设要想优化发展,需要实施联网化的网络管理,拓展基层服务平台的空间,实现全面化、素质化的改进。文章从四个方面对具体的平台构建原则进