论文部分内容阅读
个人信用历来是银行衡量个人履约风险最重要的因素。近些年,随着个人借贷需求与日俱增,违约风险也随之增多,这不仅是商业银行所面临的主要风险之一,也是导致整个金融体系不稳定的重要影响因素。如何全面和准确地进行个人信用风险评估,是包括商业银行在内的金融机构风险防控的核心环节,也是不断提高商业银行风险管理水平的必然要求。而传统的信用风险评估过于依赖个人征信,在数据时效性、全面性和多样性上存在诸多不足,已不能满足当前银行个人信贷快速发展的需求。大数据时代的到来提供了多源的个人数据,丰富了个人的信用画像,特别是商业银行逐步积累起大数据资源,如何充分结合和利用银行大数据来更全面地进行个人信用风险评估,是商业银行面临的问题之一。在利用银行大数据的同时,大数据高维、稀疏的特点带来了特征选择上的困难,使得传统的信用风险评估方法无法很好地适用于大数据环境;此外,大数据环境下高噪声普遍存在,如何有效解决噪声大数据下的个人信用风险评估是亟待解决的问题;与此同时,信用风险评估数据样本不平衡的问题在大数据环境下仍然存在,会直接影响评估模型的效果。为了更好地利用银行大数据进行个人信用风险评估,解决大数据环境下高维、稀疏以及多噪声带来的问题,同时有效避免不平衡数据样本对风险评估的影响,进而从整体上提高银行对个人信用风险评估水平这一目标。本文基于人工智能研究领域较为前沿的深度学习技术,结合银行大数据的统计分析,进行了构建基于银行大数据的个人信用风险评估特征、基于生成式对抗网络的信用不平衡数据样本学习、以及建立基于堆栈降噪自编码神经网络的个人信用风险评估方法等三个方面的研究。具体而言,本文的研究工作包括以下三个方面:1.基于银行大数据构建个人信用风险评估特征。银行传统信用风险评估中使用的特征较为单一,对个人信用风险评估不全面导致信贷资源未能达到最优供给、并且违约风险增加。利用银行大数据,根据用户画像原理,构建基于银行大数据的个人信用画像,弥补了传统评估特征表达个人信用的信息不足,缓解了个人信用风险评估中的信息不对称。通过实例阐述利用大数据构建个人信用风险评估特征的完整流程,以统计分析和建模相结合,验证了银行大数据与个人信用风险的相关性,以及结合银行大数据对信用风险评估结果的贡献,并通过大数据分析得出不同信用群体的差异性画像,给利用大数据进行信用风险评估提供了参考和依据。2.基于生成式对抗网络(Generative adversarial network,GAN)的信用不平衡数据样本的学习。信用风险评估建模中往往存在数据样本不平衡的现象,而当前解决不平衡数据样本的主要方法是对少数类样本中进行局部的随机性采样,这种方式的结果是采样不准和采样失真,进而影响最终模型的评估效果。生成式对抗网络是在2014年被提出来的一种生成式学习模型,主要用来生成数据。将该方法首次应用到信用不平衡数据样本的学习中,并针对信用风险评估数据样本的特点和方法存在的问题对原始方法加以改进,提出了Focal-Loss GAN的方法,结合公开数据集以及银行不平衡信用数据进行实验对比论证,最终本文的方法在解决信用不平衡数据样本的问题中有更好的效果。3.基于深度学习的个人信用风险评估方法。该方法建立在大数据基础之上。传统的信用风险评估模型在高维、稀疏的大数据环境下会面临特征选择上的困难;此外,大数据中存在的高噪声也会影响模型的评估效果。针对上述问题,基于深度学习的框架,提出和设计了堆栈降噪自编码神经网络(Stacked Denoising Autoencoder neural networks,SDANN)算法,将此应用在银行大数据环境下的个人信用风险评估问题中。通过实验论证和对比分析,在大数据环境下利用深度学习进行信用风险评估,能更好地挖掘和表达反映个人信用的本质特征,相比于传统的特征选择方法在大数据环境中效果更好;引入降噪模型进一步提升了模型鲁棒性,提升了信用风险评估水平。本文利用银行大数据进行个人信用风险评估特征构建,可以对银行的个人信用风险进行更加全面地评估,丰富了大数据在金融机构个人信用风险评估领域中的研究与应用,提供可借鉴的利用金融大数据构建个人信用评估特征的流程和方法。基于生成式对抗网络的不平衡数据样本学习为解决数据样本不均衡问题提供了新的研究思路,进一步丰富了生成式对抗网络在金融领域问题中的应用场景。基于深度学习的个人信用风险评估方法,给出了在大数据环境下进行个人信用风险评估的一种新的解决方案,对于深度学习在金融领域,特别是大数据环境下信用风险评估领域的研究有一定的借鉴和指导意义。