论文部分内容阅读
信用评分是金融机构进行授信决策的基础。随着科技的发展,大数据技术已渗透进金融领域,个人征信进入新时代。大数据下的个人信用评估是目前研究的热点之一,本文基于个人信贷数据进行了全面的实验研究。个人信贷数据高维度的特点增加了实验难度。为了更好的获取样本数据,降低数据维度,本文研究了特征选择算法:随机森林、Pearson相关系数以及距离相关系数,在此基础上结合特征相关的热力分布图,对数据特征的相关性进行优化,创造性的提出了Pdc-RF算法。进一步地,本文对Pdc-RF算法的性能进行了仿真检验,对比传统特征选择算法Pdc-RF算法表现出更佳的性能。具体针对个人信贷数据信用评估这一具体应用场景,对实验数据集进行数据清洗,对离散数据进行了one-hot编码,随之进行了全部数据特征的标准化处理。基于Pdc-RF算法完成个人信用数据的特征选择,将145维的数据降低至22维。在此基础上,对降维后的数据进行了统计学方面的探索性分析。在完成数据的预处理以及特征降维处理的基础上,本文完整搭建了个人信用评估模型的评分卡模型。建模过程中,首先进行了数据分区,对实验数据进行了WOE编码转化和IV值的计算。为了获得最佳的评估模型,本文基于逻辑回归,随机森林以及SVM支持向量机三种机器学习算法进行训练,经过超参数的调整和性能对比,选择了AUC和K-S值均最高的逻辑回归模型。最终,本文根据逻辑回归模型输出的预测结果,给出基于信贷用户特征的评分卡模型。