基于改进BS-Stacking模型的个人信用风险评估方法研究.pdf

资源描述

1、第卷第期运筹与管理，年月收稿日期：基金项目：国家社会科学基金项目（）；陕西省教育厅年度重点科学研究计划（）作者简介：顾清华（），通讯作者，男，教授，博士生导师，研究方向：多目标优化，车辆调度和复杂系统建模与仿真。基于改进模型的个人信用风险评估方法研究顾清华，宋思远，张新生，暴子旗，（西安建筑科技大学资源工程学院，陕西西安；西安市智慧工业感知计算与决策重点实验室，陕西西安；西安建筑科技大学管理学院，陕西西安）摘要：在个人信用违约风险与日俱增的背景下，为了使企业准确识别个人信用风险，本文提出了基于改进模型的个人信用风险评估方法。针对个人信用风险数据的特点，首

2、先对数据使用改进后的算法进行过采样处理，然后使用网格搜索算法对分类器进行参数寻优，为了寻找模型的最优组合，使用逻辑回归对基模型进行贡献度分析，从而确定模型。实验表明所提出模型与各类集成算法相比，在个人信用风险评估违约样本的识别率上以及稳定性等各类指标上均有最好表现，验证了模型的有效性。关键词：信用风险评估；分类；堆叠模型中图分类号：文章标识码：文章编号：（）：，（，；，；，）：，：；引言随着我国经济快速发展，良好的信用经济环境是我国社会发展的经济基础。从商业银行的视角来看，随着个人信贷业务的快速扩张，个人信用风险已成为商业银行面临的重要风险，也是导致国家金融体系不稳定的重要原因之一，因此如

3、何更好评价个人信用风险成为当务之急。在个人信用风险预测问题中，分析以往的金融借贷数据可知，借贷行为产生后，最终可以如期还款的用户占大部分，仅有少数违约用户由于其还款能力有限不能按时还款，因此形成不平衡的风险数据。不平衡数据会使得样本分类准确率急速下降，不能满足模型对分类效果的要求，。为了降低不平衡数据的倾斜度，现有研究对不平衡数据的处理主要包括过采样、欠采样以及混合采样三种方式。由于个人信用风险数据极度不平衡，违约样本数量远远大于非违约样本，而被错分的违约样本会造成银行企业的利润损失，欠采样容易造成信息损失，为了保证分类模型的样本数量以及足够的训练，大都采用过采样技术。信用风险评估的

4、方法有很多，和使用衡量客户违约风险，模型简单好解释，但信用评价准确度不高。等在信用卡拖欠问题上，发现决策树和随机森林的预测效果优于逻辑回归。程砚秋使用违约样本正确识别率代替以往的非违约样本识别率的度量指标，并采用不均衡支持向量机对信用风险评价指标进行赋权，从而有效区分样本。个人信用风险数据维度较大，传统单模型受到变量维度的限制，不能在大环境下使用，且客户数据情况复杂，使用单一分类器可能不能很好将其区分开，而集成学习的应用大大改善了这一缺点。陈舒期和梁雪春提出基于的集成模型大大提高了支持向量机的分类识别性能。等比较了信用风险预测的六种方法，显示集成学习有更高的准确性。柳向东

5、和李凤通过对比，算法，实验表明适合处理不平衡数据集，且对信用风险的识别能力较好。等和等使用对数据类别进行有效识别，获得了良好的信用预测性能。上述研究表明，集成算法可以更好地保证模型的稳健性，在信用风险评估上也可以表现出更好的性能。而本文使用的方法是一种新颖的集成算法，通过组合不同性能的学习器来更好的预测信用风险，将集成的知识迁移到简单分类器上，显著提升预测效果。虽然方法已被广泛用于其他领域，但是目前在信用风险评估的相关研究工作还很少。基于此，本文提出了改进集成模型，首先对算法进行改进，在强化小众样本边界区域识别的基础上，进一步对噪声点进行去除，从而保证对违约样本的精确预

6、测；此外，针对集成算法中分类器存在冗余情况、可能会降低预测性能的问题，使用网格搜索进行调参，并提出使用对个体学习器进行贡献度分析，从而得到最优个体学习器组合，使得整个模型达到最优性能。通过与单分类器以及不同堆叠方式的比较，验证了所提出集成模型的有效性。图模型流程图运筹与管理年第卷改进模型模型流程图本文提出一种基于改进模型的个人信用风险评估方法，其中改进后的模型用于处理不平衡的个人信用风险评估数据。模型主要包括个部分：（）使用改进后的对不平衡个人信用风险数据进行采样；（）网格搜索调参；（）利用采样后的数据与寻优后的参数对个体学习器进行训练；（）利用个体学习器训练生成的

7、新特征对元模型进行训练；（）利用元模型对各个体学习器进行贡献度分析；（）得出最终模型以及性能测试结果。模型流程见图。改进后的采样是一种自适应综合过采样方法，主要思想是找到小众样本的边界区域，对边界区域的小众样本采用方法进行样本生成。该算法有两个变种：和，这两种方法都可以加强边界处模糊样本的存在感，而是在方法的基础上，在生成样本点时考虑将近邻中的任意一个样本进行线性插值，使新增样本更加靠近真实值。在中，算法将处于大小样本分类边界的样本点进行线性插值生成新的样本点，未对安全区的样本点以及噪声点进行处理。噪声点的出现有两种情况：输出错误与输入错误，个人信用风险数据数据量大，管理规

8、范不统一，容易出现以上两种情况。而噪声点的存在势必会影响算法学习的性能与效果，因此本研究在的基础上，将噪声点进行过滤，可以使算法更好地学习数据。图为原理图，算法流程如下：图原理图输入：小众样本，大众样本，训练集输出：生成后的新数据集对于少数类中的每一个样本，从整个训练集中计算其个最近邻，其中个最近邻中多数类样本的数量为（）；对于若，则该样本点为安全点，不对其做任何改动；对于若，即个最近邻均为多数类样本，则该样本点为噪声点，在该步骤中去除该类点；对于若，则该样本点为危险点，即容易被误分类的点，设置集合，并进行下一步操作；对于从的个少数类最近样本点中随机选择出

9、一个，从个多数类最近样本点中随机选择出一个；根据公式（），使得危险点与周围的小众样本合成新的小众样本，其中（）代表了两个少数类样本之间差异性向量，是，之间的随机数；根据公式（），即使用危险点与周围的大众样本点合成新的小众数据，是，之间的随机数。本研究所用数据集是基于公开的德国个人信用数据集，其中包含个样本，个特征，为二分类数据。其中好坏样本占比：，为不平衡数据集，因此对其使用改进后的方法对数据进行处理。通过算法处理后的数据集正负样本比为：，共条数据，共有噪声点个。堆叠模型是一种分层模型集成框架，通常使用异质弱学习器，并行的学习他们，并通过一个

10、元模型将其组合起来，根据不同弱模型的预测结果作为新特征集合供元模型训练使用，并输出一个最终的预测结果。算法的并行计算在于学习模型的稳定性，并且分层预测的计算结果远远优于向量均值化和投票机制。本文使用两个堆叠层进行了实验。第一层由种不同的基础模型组成（，），第二层只包含一个最终模型或元模型（）。该框架如图所示。在第一层模型中，以为代表的在训练过程中对于错分数据给予较大的权重，从而提升整体模型的准确率；以为代表的使用有放回随机抽样，数据集之间相互独第期顾清华，等：基于改进模型的个人信用风险评估方法研究立，可以提高不稳定模型的准确率，并降低过拟合的程度；其他单算法则

11、保证了模型输出数据的多样性。能够成功的关键在于第一层模型能针对原始训练数据得出有差异性且预测能力好的输出值，第二层模型继续学习后，进一步提升整体模型预测的准确度和稳定性。图堆叠概要图个体学习器贡献度分析逻辑回归在个人信用评估领域的应用已经相当成熟，具有良好的适用性和稳健性。假设具有个独立变量的观测向量（，），根据观测值某件事情发生的条件概率为（）。逻辑回归模型采用如下方法计算该条件概率：首先将特征线性求和，然后使用逻辑函数进行映射，求得条件概率。特征向量各个分量线性求和公式为：（）。其中是模型中体现贡献度的参数，是输入。逻辑函数（也称函数）的表达式为公式（），样本特征向量和权值线

12、性求和，之后依据函数的形式求出公式（），根据决策边界可以进行两类样本的分类。（）（）函数图像如图所示。逻辑回归损失函数为公式（），在求解参数的过程中利用梯度下降法可以得到的更新公式，见公式（）。（）（）（）：（）（）其中：训练样本的个数；：原训练样本中的值；上角标：第个样本；：步长；下标：参数的第个元素。图函数图基于改进模型的个人信用风险评估数据描述与数据处理数据描述数据集是银行真实的数据，来自公开的德国信用数据集（网址：），该数据集有个样本，属于小型数据集，正类样本（非违约，标签为）有个，负类样本（违约，标签为）有个，每个原始样本有个指标属性，

13、便于数据分析，该数据集被增加至个属性，表是个数据特征描述。表样本特征描述数据预处理数据集中包括定性指标与定量指标，定性指标即表示类别的指标，对于定性指标之间的数学计算是没有意义的，因此不能直接使用。通常有两种方运筹与管理年第卷法进行处理：一是处理只作为分类的指标，二是处理有区域划分的有序指标，表为基于这两种方法对定性指标的处理结果，定量化处理后的指标与余下的指标进行归一化处理，保证数据分析的结果不受到量纲的影响，最终得到我们最终的评价指标体系数据。表定性指标处理分类指标选择本研究是基于的个人信用风险预测，选用准确率（）和值来衡量预测的准确性，利用精准率（）、召回

14、率（）、得分、特异度（）来衡量模型的有效性。实验结果分析改进后的测试结果比较在最初算法中，选用，共个模型作为个体学习器，选择作为元模型训练个体学习器的输出，采用折交叉验证结合网格搜索的方式确定分类器参数，训练集与测试集划分比例为：，从而进行实验，结果如表、表所示，表、表数据均为次试验之后的平均值，为未进行删减的个基模型。表为使用各种不平衡算法以及本文算法处理前后的模型结果对比，数据表明改进后的算法对比其他算法表现最佳，集成分类器相比单分类器增加效果显著，且集成后的模型与、算法性能相比较，性能最少提升，也由此验证了模型的有效性，也可以看出改进后的不平衡数据处理

15、方法对提升模型性能有着重要的作用。第期顾清华，等：基于改进模型的个人信用风险评估方法研究表使用不平衡处理算法对数据进行处理的准确率实验结果对比图各不平衡处理算法的准确率结果图基模型贡献度图为各不平衡算法处理后的准确率变化图，可以看出，涨幅最为明显，其次是，而，浮动不明显，更有下降的趋势，一方面说明结合改进后的算法使用时，集成算法较传统单分类器可以更好的处理信用风险数据，对数据集的适应能力很强，从而实现精准分类；另一方面这种单分类器容易欠拟合，可能会影响整体模型的精度，因此需要对分类器进行筛选，确定最优组合模型。基模型贡献度排序图是基于元模型对基模型做的贡献度分析，整体

16、算法将基于图来进行模型的最终确定。在所提出的模型中，基模型的输出预测结果作为元模型的新特征使用，那么在训练完成后，分类器依据公式（）和公式（）得出一组权值，。在本模型中，可以得到各分类器的权值并进行排序，从而起到筛选的效果，使得整体模型达到最优。整体测试结果说明表为各堆叠组合在个人信用风险数据上测试结果的比较，由数据可知，使用堆叠模型比单纯使用单模型的各项指标都要好，在精度上比最高的提高了，对违约样本识别的指标上提高了。为通过表分析删去的集成模型，（）为通过贡献度排序来进行逐步删除分类器的集成模型。表堆叠模型在个人信用风险数据上测试结果比较（）（）（）（）（）运筹与管

17、理年第卷图是每个指标的变化趋势，与均是在之后开始降低，说明在模型组合时，整体精确度、特异度与稳定性达到最高，而与删减前相比变化不大，说明对非违约样本的识别没有变化。在个人信用风险评估中，更需要识别的是违约样本，因此特异度指标更值得考虑，最终以组合作为最终模型，即以，为基模型，为元模型构建改进模型。（）（）（）（）（）图测试结果说明图模型的曲线图指标说明图是堆叠模型在训练集上的测试效果。图中，曲线下的面积为，和第一层模型的个分类器相比在表现最优，可以表明模型使用基模型组成新特征方式的分类性能要优于单分类器，所提出的模型在个人信用风险评

18、估问题上分类效果精确且稳定，可以更好的识别违约样本。结论个人信用风险评估对于企业识别用户风险至关重要，能否准确识别违约用户对于社会经济发展具有重要的影响。本研究所用数据集由个样本、个特征组成，根据个人信用风险数据特点对算法进行改进，在生成边界区域样本的基础上对噪声点进行有针对性的去除，大大提高了预测性能，然后选用堆叠模型对处理后的数据进行分类预测，整合八种有差异化的分类器形成一种新的集成框架，并创新性的使用了第期顾清华，等：基于改进模型的个人信用风险评估方法研究对基模型进行贡献度分析从而对个体学习器进行筛选，得到最优组合模型，使得集成模型性能达到最优状态。实验结果显示，提出的模型准

19、确度为，为，为，为，各项指标均有提升，特别是在对违约样本的识别率上，所提出模型表现最好。试验从多个角度证明了不平衡算法以及集成算法的有效性，也表明本算法在个人信用风险评估上可以实现较高的精度与稳健性。参考文献：莫赞，张灿凤，魏伟基于集成的个人信用风险评估方法研究系统工程，（）：吴金旺，顾洲一基于非平衡样本的商业银行客户信用风险评估以银行为例金融理论与实践，（）：，：，（）：，：，：欧阳源?基于混合采样的非平衡数据集分类研究重庆：重庆大学，：，张涛，汪御寒基于样本依赖代价矩阵的小微企业信用评估方法同济大学学报（自然科学版），（）：，（）：，：程砚秋基于不均衡数据的小企业信用风险评价运筹与管理，（）：陈舒期，梁雪春改进的集成算法在信用风险评估中的应用计算机工程与设计，（）：，（）：柳向东，李凤大数据背景下网络借贷的信用风险评估以人人贷为例统计与信息论坛，（）：，：，：，（）：，：崔少泽，赵森尧基于的再入院患者风险预测方法系统工程理论与实践，（）：，：（），：，：运筹与管理年第卷

展开阅读全文