机器学习在信用贷款评分中的应用

资源描述

1、第 39 卷第 2 期福建电脑 Vol.39 No.2 2023 年 2 月 Journal of Fujian Computer Feb.2023 本文得到浙江金融职业学院青年科研项目课题基金(No.2022YB44)资助。赵兴文(通信作者)，男，1995 年生，主要研究领域为计算机视觉、人工智能、深度学习。E-mail:。机器学习在信用贷款评分中的应用赵兴文 (浙江金融职业学院信息技术学院杭州 310018)摘要针对贷款市场中的客户信用评分建立需求，本文基于采集的某区域贷款信用数据，使用机器学习算法进行信用评分模型的构建从而预测出客户的放贷风险等级。首先进行数据清洗以及探

2、索性分析，获取到完整备用的信用贷款数据；其次利用皮尔森相关性分析和热力图完成特征自变量以及因变量的选取和处理；最后采用 LightGBM 模型进行训练，并与多个主流预测算法进行对比分析。本文完整算法模型在预测精确度、召回率以及 F-1 Score 评价指标均可达到 97%以上。关键词机器学习；轻量的梯度提升机；信用贷款；信用评分；相关性分析中图法分类号 TP391 DOI:10.16707/ki.fjpc.2023.02.007 Research on the Application of Machine Learning in Credit Loan Scoring ZHAO Xingw

3、en(Department of Information Technology,Zhejiang Financial College,Hangzhou,China,310018)Abstract To meet the demand of customer credit scoring in the loan market,the paper uses machine learning algorithm to build a credit scoring model based on the collected credit data of a region to predict the c

4、ustomers lending risk level.Firstly,data cleaning and exploratory analysis were carried out to obtain complete standby credit loan data;Secondly,Pearson correlation analysis and thermodynamic diagram are used to select and process characteristic independent variables and dependent variables;Finally,

5、LightGBM model is used for training,and compared with many mainstream prediction algorithms.The complete algorithm model in the paper can achieve more than 97%in prediction accuracy,recall rate and F-1 Score evaluation index.Keywords Machine Learning;LightGBM;Credit Loan;Credit Score;Correlation Ana

6、lysis 1 引言信用贷款是当今金融社会生活中的重要组成部分1。对于银行等放贷机构而言，放贷行为必然需要考虑到对于客户的风控分析和信用评价。其中信用评价作为放贷必备的前置考核条件，在金融活动中具有举足轻重的地位。信用评价是对于个体整体经济活动的一个概括和缩影，目标是对涵盖着几乎所有可证明个人信用的经济活动进行评价和分析。影响到个人信用评价的因素多种多样，如个人经济负债情况、资产管理情况、企业营收情况、市场发展趋势等指标均可作为个人信用的评估。放贷机构得到每个用户的信用评价状况后酌情开展放贷行为，如对于信用评价良好的个体进行放贷，对于信用评价一般的客户酌情选取放贷策略，对于信用评价恶劣的客户

7、则可能拒绝放贷，以此保证用户的还款行为健康且可持续。目前信用评价体系的构建多依赖于数学模型和算法的建立。基于个人用户的多维指标数据，包括性别、年龄、从事行业、年收入、负债情况等特征维度进行综合分析，选择性判别获得可靠的信用评价体系。随着机器学习领域的发展，更为完善的分类算法与预测算法得到了空前发展，而信用评价体系的构建与机器学习领域中的分类算法以及预测算法32 赵兴文：机器学习在信用贷款评分中的应用第 2 期密不可分。分类算法中有经典的决策树算法2。其提出以树结构模型自根节点向叶节点逐渐分裂，每次分裂过程代表着一次判别，实现将完整的分类问题分解为多个筛选条件的控制，从而实现分类的目的。在决

8、策树的基础上，随机森林算法实现了精确度和预测规模的提升3。在预测领域中，近些年Boosting 的思想发展很快4。该类算法旨在联合多个弱分类器进行判别来实现较好的分类和预测效果。GBM(Gradient Boosting Machine)算法模型沿用了 Boosting 算法的思想5，且采用串联多个多分类器进行学习。该序列中每个弱分类器是对之前所有分类器的累加模型的损失朝向负梯度的方向进行拟合，且赋予不同效果分类器以不同的权重，从而获得整体的分类表现效果。LightGBM(Light Gradient Boosting Machine)算法的最小单元仍然是决策树6，以之前分

9、类器负梯度损失为拟合目标来训练、优化下一决策树。本文以 LightGBM 算法进行建模，将采集到的某区域信用贷款数据进行数据分析、相关性分析、热力图分析后选择出特征自变量与因变量组合，将该特征组合投入 LightGBM 算法中进行训练，从而获得每个用户的贷款信用风险等级评分模型。2 数据增强和检测架构 2.1 数据说明本文采集得到某地区信用信用贷款数据，进行脱敏分析后获得 1 万条原始数据集。2.1.1 数据清洗数据集为某地区信用贷款数据，具有包括年龄、年收入、从事行业等 40 多维特征列。图 1 原始数据展示基于以上原始数据，首先采取了异常值分析，去除掉各个特征维度下的明显错值、空值等

10、异常值。如年龄一列中，统计出整体数据集合中还款人年龄集中在 20-60 岁之间，其中还款人年龄超过 70 岁的仅有 2 人，可能存在作为共同还款人的情况，而并非主还款人。本文主要探究常规年龄段的普适性的个人信用贷款研究，为避免异常值的影响，选择删除掉年龄过大的用户。对于 30 多个特征维度均进行了异常值处理，采用了均值填补、删除、采样插数等基本方法获取清洗后数据。其次进行数值化以及归一化操作。原始数据中如从事行业一列，包含了金融业、批发和零售业等诸多标签。为了方便后续数据分析与模型计算，将多维类似特征进行数值化转化，利用 python 库函 onehot 矩阵操作将标签数值化，完成多维特征的数

11、值量纲统一。数值化后的数据同时还需要进行归一化操作，使得对应数值控制在合理范围内，为后续的模型建立提供了基础。2.1.2 探索性分析 2.1.1 节中数据清洗步骤后获得的数据集，部分数据如图 2 所示。图 2 数值化与归一化操作后数据可以看出，经过数值化与归一化操作后的数据具备良好的建模操作基础。基于图 2 数据，本文进行了多维特征指标的皮尔森分析以及热力图分析图 3 热力图分析结果如图 3 所示，通过皮尔森相关性系数的计算，获得相关性较强的特征列。将该类相关性较强的特征组合仅保留一个作为特征变量的输入。2023 年福建电脑 33 如借据金额与借据余额的相关性为 0.89，保留借

12、据金额作为其中一个特征变量；如浮动比例与贷款执行利率呈现 0.99 的极强相关性，选择保留贷款执行利率；借据累计早偿次数与借据累计早偿本金呈现较强正相关，保留累计早偿本金金额。2.2 算法模型建立 2.2.1 特征变量组合基于上节探索性分析与热力图相关性分析结果，选择年龄、婚姻状态、年收入、职业、从事行业、借据金额、还款方式、贷款执行利率共 8 个维度特征合并成为十个维度的特征自变量组合。基于累计逾期金额与累计早偿金额两个维度构建特征因变量组合。组合原则考虑到累计逾期代表曾经逾期总额，累计早偿代表用户曾累计提前还款总额，因此用累计逾期总额减去累计早偿总额可代表用户还款风险等级，公式如下：Cr

13、editScoreAOAEP=(1)其中 AO 代表累计逾期总额，AEP 代表累计早偿总额，CreditScore 代表信用分数，两者做差后进行归一化操作，可以将总体分布限制在一个区间内。其次再进行如下的风险等级划分：,0,040,4090,90140140A CreditScoreBCreditScoreCreditRankCCreditScoreDCreditScoreECreditScore=|=|=|，(2)将上述 CreditRank 等级作为特征因变量。当为A 时代表信用评级最高，E 代表信用评级最差。2.2.2 LightGBM 算法 LightGBM 算法沿用了 Boostin

14、g 算法的优势，在 GBM 的基础上进一步优化了模型速度和通信代价。其最小单元仍然是决策树，以之前分类器负梯度损失为拟合目标来训练优化下一决策树，进一步降低了通信成本并提升了算法速度。其核心思想在于直方图算法以及 Leaf-Wise 的分裂增长方式7-8。直方图算法的思想是将连续的数据特征序列离散成 k 个离散值，同时构造出一个宽度也为 k 的直方图。在遍历数据时，统计数据中的每个离散值，以该离散值作为索引坐标一一遍历出来，并累计计算统计量。最后遍历完成时，可以获得离散值统计量，以此为基础寻找最优分割点。基于直方图算法的思想，LightGBM 提出了Leaf-Wise 的数模型分裂策略，即限制

15、生长深度的同时采取按叶子分裂生长的原则。如图 4 所示，在每一层树结构分裂过程中，选择分裂增益最大的叶子进行分裂，循环上述步骤，将可以得到一个具备更高精度且更深的决策树。图 4 LightGBM 结构分裂模式 3 实验结果用采集的区域信用贷款数据进行测试，采取决策树算法、随机森林算法、GBM 算法以及LightGBM 算法进行对比分析。3.1 平均检测结果如表 1 所示，在精确度、召回率以及 F1-Score三个指标上进行对比9，其中决策树算法在以上指标中可以得到平均 80%的结果，随机森林算法可以获得 92%的检测结果，GBM 算法可以获得平均97.47%的算法结果，Ligh

16、tGBM 算法可以获得97.50%的结果，因此本文构建的 LightGBM 算法所获结果最优。表 1 检测结果对比模型精确度召回率 F1-Score 决策树 0.812301 0.790605 0.792909 随机森林 0.928840 0.925446 0.925550 GBM 0.974990 0.974726 0.974671 LightGBM 0.975206 0.974937 0.974894 3.2 ROC对比本文对 lightgbm 进行超参数调优，在估计参数n_estimators、最大深度 max_depth、最小样本叶子min_samples_leaf 等参数进行多次调优，最后以一组实验所获最优参数实例化 GridsearchCV 进行训练，得到最优模型。同时将所获得最优模型在预测数据集进行测试。选择采用 python 自带库函数来实现最优解的输出，在整体的 LightGBM 算法结果中统计出假阳性样本、真阳性样本，并绘制出 ROC曲线，如图 5 所示。34 赵兴文：机器学习在信用贷款评分中的应用第 2 期图 5 ROC 曲线对比由图 5 可以看出，

展开阅读全文

机器学习在信用贷款评分中的应用_赵兴文.pdf