基于非平衡数据的LDA-BPNN信用评分模型

资源描述

1、基金项目:国家自然科学基金项目(51474095);河南省重点攻关项目(152102210277);河南省高校科技创新团队支持计划项目(17ITSTHN010);河南科技大学科技创新团队项目(2015XTD011);河南科技大学重大产学研合作培育基金项目(2015ZDCXY03)收稿日期:20210430修回日期:20210515第 40 卷第 2 期计算机仿真2023 年 2 月文章编号:10069348(2023)02030306基于非平衡数据的 LDABPNN 信用评分模型王静1，王艳丽2，孙士保1*，贾少勇1(1 河南科技大学信息工程学院，河南洛阳 4

2、71023;2 河南科技大学软件学院，河南洛阳 471023)摘要:随着互联网金融的蓬勃发展，信用评分已成为评判是否为贷款人放款的重要依据，传统的信用评分方法的单一性，不能有效地减少不良贷款带来的巨大损失。提出一种基于非平衡数据的 LDABPNN 方法构建信用评分模型，通过 BorderlineSMOTE 算法进行非平衡数据过采样，达到平衡样本分布，进一步构建 LDABPNN 模型，显著提升了模型的预测准确率。在不同数据集上，利用多类机器学习算法进行定性和定量对比，并通过 pr 曲线、AUC 等评价指标进行验证，验证结果表明上述模型的分类效果更佳。关键词:信用评分;自适应合成抽样算法;线性判

3、别分析;多层前馈神经网络中图分类号:TP391文献标识码:BLDABPNN Credit Scoring Model Based on Unbalanced DataWANG Jing1，WANG Yanli2，SUN Shibao1*，JIA Shaoyong1(1 College of Information Engineering，Henan University of Science and Technology，Luoyang Henan 471023，Chinal;2 College of Software，Henan University of Science and Techn

4、ology，Luoyang Henan 471023，China)ABSTACT:With the booming development of Internet finance，credit score has become an important basis for jud-ging whether the lender is lending money The singleness of traditional credit score methods cannot effectively reducethe huge loss caused by nonperforming loan

5、s Therefore，an LDABPNN method based on unbalanced data was pro-posed to build a credit scoring model The BorderlineSMOTE algorithm was used to oversample the unbalanced datato achieve balanced sample distribution The further construction of the LDABPNN model significantly improved theprediction accu

6、racy of the model Qualitative and quantitative comparisons were made by using multiple machinelearning algorithms on different data sets，and verified by pr curve，AUC and other evaluation indexes The verificationresults show that the classification effect of this model is betterKEYWODS:Credit score;B

7、orderlineSMOTE algorithm;Linear discriminant analysis;BP neural network1引言随着我国经济的飞速发展以及消费观念的改变，信贷业务正在逐渐扩大，银行决定是否向贷款人发放贷款在信贷行业中备受关注。不良贷款的出现增加了银行的信用风险问题，因此，构建有效的信用评分模型在信贷行业中被人们越来越关注和重视。信用评分实质上是将总体按照不同的特征分配到“良好信用”组或“不良信用”组，从而对贷款的信用风险进行评价。通过构建信用评分模型，提高评估绩效的同时减轻风险的灵活性。传统的信用评分模型是众多学者基于统计学和机器学习法等方面来构建，此方法主

8、要有线性判别分析(Linear dis-criminant analysis，LDA)1、Logistic 回归2 等。典型的信用评分模型简单且可解释强，但因预测准确率偏低，应用范围相对较少。随着计算技术和优化理论的发展，信用评分方法也逐渐智能化，其中较为常见的信用评分方法有决策树(De-cision Tree，DT)3、神经网络(ANN)4、支持向量机(SupportVector Machine，SVM)5 等，鉴于以上常见方法在建立信用303评分时模型简单易理解，神经网络和集成学习模型预测准确率较高。在处理二分类问题时模型有较好效果，但可解释性相比于传统的信用评分方法较弱。信用评分模型若运

9、用到现实生活中，则需要考虑一些不可忽视的问题。如在前期筛选数据时出现“好”客户数据远远多于“坏”客户数据，从而出现数据不平衡现象。目前，处理非平衡数据问题从分类算法和数据两个层面:数据层面常基于采样技术，分类算法层面常基于代价敏感学习。在信贷业务中，代价敏感学习实现修正分类面相对较难，从而提出数据层面的采样方法。采用此方法解决实际问题中出现的数据分布不平衡问题6。早期有学者使用随机欠采样对数据进行预处理，但少数类样本易丢失。Blake 等7 提出Balance Cascade 算法，此算法易过拟合。Chawla 等8 提出一种新的过采样方法 SMOTE(synthetic minority o

10、versamplingtechnique)，此方法易产生混叠现象造成分类效果不佳。Han等9 基于 SMOTE 算法提出 BorderlineSMOTE 算法，在边缘区域进行插值，使得新样本更加有效且分类效果良好。同时有众多学者对评分模型的预测准确度方面进行研究，徐海洋等10 改进线性判别分析构建多目标信用评分模型，此方法能有效地提升分类准确率，但仅从统计方法进行探讨具有一定的局限性。陈煜等11 引入随机代价敏感向量的方式，增强随机森林分类器的差异性，但分类效果不佳。Han Lu12 将人工智能和 logistic 回归融合构建信用评分模型，表明组合模型相较于单一模型精度更高。基于现有研究，构

11、建信用评分模型将基于过采样方法处理非平衡数据，同时考虑可解释性和预测准确率在信用评分模型中所占的比重。因此，本文提出结合 BorderlineSMOTE的方法对不平衡分布的数据进行预处理。LDA 模型引进显著的预测结果作为 BP 神经网络模型的输入变量的方法构建信用评分模型。此外，通过多个数据集与多种机器学习算法进行对比，选取适当的评价指标论证模型的可行性和有效性。2相关理论2.1线性判别分析LDA 最早由 Fisher 提出解决二分类问题的 fisher 判别分析，LDA 是一种非常有效的可监督的降维技术。当前该项技术在人脸识别等方面已广泛存在13。线性判别分析有较好的预测变量的某些属性，能

12、够准确地寻找到最佳的线性组合，以最佳精度将研究对象分为两个或两个群体以上。因此，本文将基于 LDA 模型在信用评分问题中预测输出变量。构建 LDA 模型处理信用评分问题，首先给定数据集 D=xi，yimi=1，y 0，1，其中任意样本 xi为 n 维向量 yiC1，C2，Ck，同时令 Xi、i、i分别表示第 i 0，1 类示例的集合、均值向量、协方差矩阵以及降维维度 d。计算类内散度矩阵和类间散度矩阵 Sb:S=0+1=xX0(x 0)(x 0)T+xX1(x 1)(x 1)T(1)Sb=ni=1mi(01)(01)T(2)根据式(1)和(2)计算矩阵 S1Sb，计算矩阵 S1Sb过程将最大

13、的 d 个特征值和对应的 d 个特征向量(1，2，d)投影至矩阵 W;基于以上工作，使样本集中的每个样本特征xi，转化为新样本 zizi=WTxi(3)输出样本集 D=zi，yimi=1，y 0，1。2.2BP 神经网络20 世纪 80 年代，BP 神经网络是 umelhart 与 McCelland为首的研究小组所提出14。BPNN 则是按照误差逆转传播法训练的神经网络，其主要思想是学习过程中信号的正向传播和误差的反向传播方式的组合。BPNN 拓扑图如图 1所示。图 1BPNN 拓扑结构BPNN 本质上是一种基于梯度最陡下降训练算法的网络，是迄今为止最常用的范式。设 D=(x1，y1)，(x

14、2，y2)，(xm，ym)，xid，yil为训练集，l 输入层节点数，h 隐含层节点数，o 输出层节点数，输入层至隐含层的权重由 ij表示，隐含层至输出层的权重由 jk表示，输入层至隐含层偏置由 aj表示，隐含层至输出层偏置由 bk表示，学习率由表示，g(x)取 Sig 函数g(x)=11+ex(4)并进行隐含层的输出 HjHj=g(ni=1ijxi+aj)(5)和输出层的输出 OkOk=lj=1Hjjk+bk(6)根据(6)公式计算误差 EE=12ok=1(Yk Ok)2(7)403其中 Yk为期望输出，记 YkOk=ek，则 E 也可以表示E=12ok=1e2k(8)以上公式中，i=1l

15、，j=1l，k=1o。误差反向传播过程中，使得误差函数最小化，借用梯度下降法进行隐含层至输出层的更新，输入层至隐含层的权值表达为ij=ij+Hj(1 Hj)xiok=1jkekjk=jk+Hjek(9)以及隐含层至输出层的更新，输入层至隐含层的偏置表达为aj=aj+Hj(1 Hj)ok=1jkekbk=bk+ek(10)3基于 LDABPNN 的信用评分模型3.1BorderlineSMOTE 过采样以往研究信用评分模型是基于数据平衡所构建，忽略非平衡数据对信用评分模型的影响，使得所构建模型的预测结果偏向于多类。在实际问题中，考虑过多的是少数类样本，并希望可以有效预测少数类，达到特异预警的效果

16、。令选取 kaggle 开源数据集，以及 UCI 公开的德国数据集和澳大利亚数据集。数据集显示，三种开源数据集均出现非平衡分布，正负样本比例分别为 1:14;1:3;1:5，如图 2 至图 4所示。图 2kaggle 数据集正负样本分布图 3德国数据集正负样本分布本文选用 Borderline SMOTE 算法，其算法是基于SMOTE 方法改进的自适应合成抽样法。SMOTE 方法在产生图 4澳大利亚数据集正负样本分布新样本时缺乏对近邻样本分布的考虑，采用线性插值处理操作，使得样本重复率大大增加。为解决此问题，本文基于BorderlineSMOTE 算法对少数类边界过采样合成新样本，同时考虑少数类样本周围多数类样本分布情况。相比于SMOTE 算法，BorderlineSMOTE 算法合成的新样本可将少数类样本合理分布，对分类器的影响也相对较小。算法具体操作步骤如下:1)识别少数类样本 L:每个 piSmin确定最优的邻近样本集合，称该数据集为 Si:mNN，且 Si:mNNS。判断多数类样本中与 pi邻近样本集的数目，表达为:|Si:mNNSmaj|。满足不等式 pi:m

展开阅读全文

基于非平衡数据的LDA-BPNN信用评分模型_王静.pdf