论文部分内容阅读
近年来互联网金融与大数据技术的发展使得传统金融机构的中介作用下降,互联网金融理财观念日渐深入人心,大众逐渐把P2P网络借贷作为金融消费理财的重要途径。国内P2P网贷行业因此迅速发展,但是在快速发展的背后伴随的问题与风险也在逐步提高,2018年我国P2P网贷平台出现集中爆雷潮,发生了大面积的客户违约现象,高坏账率导致大量平台出现资金提现困难、倒闭等现象,因此如何准确识别潜在违约客户,降低信用违约风险变成迫在眉睫的问题,只有将借款客户的信用违约问题处理好,才能够更好的促进我国P2P网络贷款行业平稳健康发展。本文旨在通过建立贷款违约预测模型,对P2P网贷平台潜在违约客户进行准确识别,以期能够降低平台经营风险,优化我国互联网金融环境,降低互联网金融风险。针对目前我国P2P平台风险量化研究较少,运用机器学习算法较单一且缺乏运用多模型融合策略的实际情况,本文利用Python爬取人人贷借贷数据,借助Python、R等分析软件,首先进行了数据预处理和Cox生存分析等探索性统计分析,在对非平衡数据使用Border-line Smot算法处理后,通过IV信息价值与Gini指数相结合的特征筛选方法,构建Logistic、支持向量机、Adaboost、Xgboost、随机森林、朴素贝叶斯6组经典分类模型,通过网格搜索法对各模型进行参数调优后,使用F2值作为模型性能评价指标,择优选出Logistic、支持向量机、Adaboost、Xgboost模型,最后通过Stacking算法融合4组模型建立最终的贷款违约预测模型,并得出以下结论:1)通过贷款生存时间分析发现,小额贷款相较大额贷款更容易违约,P2P网络借贷平台应加强小额贷款申请的监督审核工作;其次借款人在贷款期限临近时期更容易出现违约的情况,平台在还款日临近之前,需要特别注意借款人近期的还款表现,加强借款催收与监督工作。2)基于不同平衡比例的数据训练会影响模型性能,且训练数据越接近1:1平衡状态,模型性能越差,训练数据平衡比为1:3时是更利于模型性能的处理。3)不基于Stacking融合算法时,Xgboost模型在各单组模型中表现最好,优于其余经典分类模型建立个人贷款违约预测模型。4)基于Logistic、支持向量机、Adaboost、Xgboost四组模型建立的Stacking融合模型在所有模型中表现最好,证明了本文建立的Stacking融合模型是表现更优的个人贷款违约预测模型,以及Stacking模型融合算法在个人贷款违约预测领域的优越性,对于将模型融合算法应用到我国个人贷款违约预测领域有一定的参考价值。5)从模型应用角度出发,通过控制变量法研究了单个借款客户在不同利率水平下,模型的预测违约概率的变化情况,通过调整借款利率来改变其相应的违约概率,使之降至平台可接受的违约概率范围,对于协助平台实现不良客户转化具有一定的积极意义。