论文部分内容阅读
本文介绍信用风险评估的意义及重要性,论述了利用支持向量机(SupperVector Machine,SVM)技术及相关机器学习技术进行客户信用评估的可行性。本文把客户信用评估问题归结为样本数目不平衡、样本误分损失不平衡的分类问题,进而利用支持向量机技术进行求解。
本文首先对机器学习理论和技术进行了研究,包括数据预处理、属性选择方法、聚类算法、增量式机器学习以及不平衡类问题,然后深入研究了支持向量机的理论和技术,包括统计学习理论、最优化理论、核理论以及在这些理论基础上推导的SVM分类器,包括最大间隔分类器、C-SVM和One-Class SVM。
根据支持向量机及机器学习相关理论,结合信用风险评估的实际需求,本文提出了三种适用的“基于支持向量机技术的信用风险评估模型”:
第一,提出了改进的基于不同惩罚值的C-SVM信用评估模型,提出了新的C取值方法,提高了负类预测准确率,降低了整体的误分损失;
第二,提出了改进的基于聚类分块的SVM信用评估模型,较好地解决样本数目不平衡问题,提高模型的预测准确率,对有局部聚集特性的数据集十分有效;
第三,提出了双层One-Class SVM信用评估模型,结合负类增量式One-ClassSVM模型和正类One-Class SVM异常检测模型,有效解决样本数目严重不平衡,甚至只有一类训练样本的分类问题。
最后,利用电力客户信用数据对本文提出的三个模型进行实验验证,其实验结果是令人满意的。在实验过程中,提取了著名的LibSVM开源软件包的核心算法,在此基础上开发了有实用价值的软件工具,使得模型可以实际应用。