论文部分内容阅读
网络借贷行业借助日新月异的互联网技术开辟了大热的互联网金融行业,但是,就目前来说,虽然行业发展非常迅猛,但行业内各种问题频频爆出,其中借款人违约风险较高的问题对网络借贷的正常交易产生了严重的不良影响。首先,为了研究网络借贷中借款人违约的问题,论文利用Python软件,爬取某互联网金融公司借款人的真实交易记录数据,选取与借款人信用评级密切相关的观测指标,建立各输入变量指标与信用评级交叉分布表,并对各个指标的所有特征值进行量化打分,构建网络借贷个人信用评价量化打分表。基于量化打分表,将爬取的原始数据进行量化打分并利用EM算法对数据缺失值进行插值处理。其次,当指标体系构建完成后,鉴于爬取数据存在正类样本过多、负类样本过少的样本不平衡问题,提出了改进的SMOTE算法。分别使用改进前后的SMOTE算法对不平衡数据集进行过抽样处理,并采用朴素贝叶斯、神经网络、K近邻、支持向量机及决策树五种分类器对SMOTE算法改进前后的数据集进行分类,选择几何均数(G-mean)和曲线下面积(AUC)两个评价指标对分类效果进行检验。通过对比研究,发现改进的SMOTE算法分类效果提升更加明显,说明改进后的SMOTE算法生成的少数类样本更加科学合理,并且与改进后的SMOTE算法配合效果最好的分类器为决策树模型。最后,论文基于利用改进的SMOTE算法构造的平衡数据集建立网络借贷个人信用评价模型,首先基于CART算法,建立预剪枝、后剪枝的单棵决策树模型,然后结合网络借贷的实际情况,构造损失矩阵,建立基于损失函数优化的C5.0决策树模型。考虑到单棵决策树可能存在的不稳定性,论文基于随机森林算法建立组合决策树模型进行优化改进,研究表明,集成算法提升了模型预测的准确率与稳定性。