论文部分内容阅读
随着我国经济体制改革的深入发展和市场经济体系的不断完善,个人信贷业务快速发展。但是在个人信贷业务不断发展的同时,也面临风险控制的问题。信用评分模型是在银行信贷中提供正确指导决策的有效工具。良好的信用评分模型不仅可以减少放贷机构的风险,并且能够节省时间提高效率。在过去几十年中,信用评分已成为金融机构日益关注的问题,目前仍是一个热门的研究课题。信用评分是一种二分类技术。当前构建信用评分模型有三种主流分类方法,一是传统的统计学方法,如逻辑回归、线性判别分析等;第二种采用机器学习方法,如朴素贝叶斯、决策树等;第三种就是集成学习方法,包括随机森林、GBDT(Gradient Boosting Decision Tree)等。近期的许多研究已经证明,集成学习模型相比较于传统分类算法在信用评分领域有明显的优势。但是,大多数的研究只追求模型的性能表现,忽视了现实信用评分业务中的数据不平衡问题和模型可解释性。为了解决上述现实信用评分业务中的两大问题,本文提出了基于集成学习的信用评分模型EL-CSM(Ensemble Learning Credit Scoring Model),使其可以适应不平衡数据的挖掘并具有良好的模型可解释性。对于数据不平衡问题,针对性的构建了模型的评价指标,提出了基于集成学习改进的不平衡数据下采样方法。并且在模型的构建过程中,充分考虑到了模型的可解释性,在建模前、建模中进行了一系列的优化,并提出了基于集成学习的特征选择算法。使用贝叶斯模型进行了超参数优化。并且在三个信用评分数据集上设计了完整的实验过程进行了模型性能和可解释性的验证。通过数据预处理、超参数优化、四组对照实验以及模型解释,证明了本文提出的模型拥有良好的性能,同时具有良好的可解释性,在模型的实用性上有明显的优势。