论文部分内容阅读
随着全球数字化货币转型趋势的到来,以及互联网技术与金融行业的深度结合,数字化风控的趋势越来越明显。面对“大数据时代”所积累的海量数据,运用大数据理论分析处理海量数据也对各行各业提出了更高的要求和挑战。信用风险管理控制是金融行业的核心。同时,随着人工智能技术的兴起,金融机构如何运用机器学习、特征工程等技术全面的刻画业务场景、更精准的进行风险预测也成为了当前研究的热点问题。
信用风险预测问题本质上是分类问题,结合金融信贷行业数据大多为结构化数据的特点,本文通过对已有文献和方法进行梳理,采用特征工程、机器学习等技术进行研究试验,具体研究贡献总结为以下2方面:
1.面向信用风险预测问题提出了具体的特征工程构造方法和流程。首先,针对结构化数据,将数据表抽象为特征实体,提出了对于单个实体聚合和扩展进行特征构造的基本方法。其次,阐述了不同实体之间的连接方式,提出了从基础特征、聚合特征、转换特征、时序特征、组合特征、业务特征六个维度进行特征转换的方法和具体操作。最后运用企业真实结构化数据进行特征工程流程实践,在迭代过程中生成了大量稳定性强,效果好的特征,对于信用风险预测提供了一定的参考和借鉴。
2.对比分析特征工程在不同模型上的效果提升,以及对特征重要性进行可解释性分析。分别选择逻辑斯谛回归、支持向量机、随机森林、梯度提升树分类器与交叉验证结合的方式进行训练,并采用多种评估指标综合评价特征效果。结果表明,相对于原始特征,特征工程流程所构造的特征在不同的模型上都有较高的提升效果,特征工程具有实际应用价值。同时,进行特征选择前后对比分析,在训练过程前加入嵌入式特征选择算法进行预训练,筛除无关冗余特征,使得模型效果进一步提升。
信用风险预测问题本质上是分类问题,结合金融信贷行业数据大多为结构化数据的特点,本文通过对已有文献和方法进行梳理,采用特征工程、机器学习等技术进行研究试验,具体研究贡献总结为以下2方面:
1.面向信用风险预测问题提出了具体的特征工程构造方法和流程。首先,针对结构化数据,将数据表抽象为特征实体,提出了对于单个实体聚合和扩展进行特征构造的基本方法。其次,阐述了不同实体之间的连接方式,提出了从基础特征、聚合特征、转换特征、时序特征、组合特征、业务特征六个维度进行特征转换的方法和具体操作。最后运用企业真实结构化数据进行特征工程流程实践,在迭代过程中生成了大量稳定性强,效果好的特征,对于信用风险预测提供了一定的参考和借鉴。
2.对比分析特征工程在不同模型上的效果提升,以及对特征重要性进行可解释性分析。分别选择逻辑斯谛回归、支持向量机、随机森林、梯度提升树分类器与交叉验证结合的方式进行训练,并采用多种评估指标综合评价特征效果。结果表明,相对于原始特征,特征工程流程所构造的特征在不同的模型上都有较高的提升效果,特征工程具有实际应用价值。同时,进行特征选择前后对比分析,在训练过程前加入嵌入式特征选择算法进行预训练,筛除无关冗余特征,使得模型效果进一步提升。