基于机器学习算法的信用风险量化模型研究

资源描述

1、金融风险金融经济2023 年第 4 期(总第 562 期)75一、引言信用风险作为金融市场风险的重要组成之一，其被衡量的方式始终被市场参与方所重视。投资者、金融机构、监管部门出于风控需求，对信用风险衡量的要求也趋于更加精准和动态。信用风险计量模型则在其中扮演最为关键和重要的角色，其科学性和准确性成为风险计量结果好坏的基础性因素。金融学中大部分研究对象的本质都是复杂、多维和非线性的。传统的信用风险计量模型难以处理高维数据和非线性问题，多具备较严格的假设条件，并且算力难以支持大量模拟和迭代优化，因此计算结果常与实际情形存在较大误差。随着金融工程的发展和计算机算力的增长，机器学习作为人工智能的重要成

2、果之一，在金融风控领域的应用日益广泛。该类算法将概率论、统计学、最优化理论等科学理论与计算机的强大算力相结合，既可快速、自动地处理高维数据，还能在不断学习和优化过程中提高模型的泛化能力，通过复杂多样的函数输出更准确的预测结果。可以预见，机器学习模型的应用和迭代将带动信用风控技术进入新纪元。本文利用统计学原理以及机器学习算法，构建资产信用风险溢价和违约概率量化模型，以解决传统模型中的各类局限和不足，输出更准确的量化预测结果。二、传统信用风险衡量模型信用风险衡量模型的发展经历了三个阶段：第一阶段为 20 世纪 60 年代之前的专家分析法，通过专家经验和主观分析来评估信用风险；第二阶段为 20 世纪

3、 70 年代至 90 年代的信用评分模型，包括线性概率模型、Logit/Probit 模型和 Z-score模型，20 世纪 60 年代的信用卡业务催生了该类模型的发展，这也是数学模型首次应用于信用风险领域；第三阶段为 20 世纪 90 年代至今的违约概率模型，例如 KMV 模型、CreditMetrics 模型和CreditRist+模型，该阶段的模型将金融理论与数学相结合，对信用风险的评估由分类上升至计量。目前，信用评分模型仍被国内外评级机构和多数金融机构应用于信用风险评估，违约概率模型则多被商业银行使用，用于信贷审批、信用卡额度审批和信用风险敞口的计算。然而信用风险衡量模型的发展已停滞近

4、三十年，其固有的缺陷也日益暴露，难以满足更高的风控需求。信用评分模型使用了较多的内生变量，例如财务数据、主体资质、资产特征等，但最终仅输出分类结果，并无进一步的量化信息；并且模型计算中仅使用初等函数，应用的数学理论较为简单。而违约概率模型虽然实现了进一步的风险计量，但考虑的内生变量较少，例如 KMV 模型中基于机器学习算法的信用风险量化模型研究李沐勋摘要：传统的信用风险计量模型难以处理高维数据和非线性问题，多具备较严格的假设条件，计算结果常与实际情形存在较大的误差。本文综合考虑影响信用风险的内生变量和外生变量，使用更优的非线性变换方式拟合数据，并借助机器学习强大的算力和学习迭代优势量化信用风

5、险。实证结果表明，该模型算法可提高预测结果的拟合度和准确性。关键词：债券市场；机器学习；信用风险计量中图分类号：F832.5 文献标识码：A 文章编号：1007-0753（2023）04-0075-09收稿日期：2023-01-05作者简介：李沐勋，高级研究员，安泰信用评级有限责任公司，研究方向为量化风险控制。DOI:10.14057/43-1156/f.2023.04.009金融风险金融经济2023 年第 4 期(总第 562 期)76仅考虑资产与负债规模的内生变量，CreditMetrics模型和 CreditRist+模型仅使用了违约频率的外生变量，并且应用的统计学模型局限于正态分布，弱

6、化了拟合度和尾部风险。此外，传统模型中尚未探索出信用风险溢价与违约概率之间的映射关系，以及对违约的预警功能。三、模型算法原理外生变量是资产信用风险变化的直接体现，例如生存率、死亡率（违约率）、等级迁徙率等，可通过简单的计算统计得到。内生变量是影响资产信用风险的本源性因素，例如资产归属主体的资质、财务状况和经营状况，它们之间通过复杂的联系和变化影响着资产的违约概率，难以用简单的函数进行表达。此时可通过引入具有代表性的标签值作为中间变量，一方面构建更显著的映射特征，另一方面强化深度，寻找更优的非线性变换方式以拟合数据。鉴于此，在变量选择上，本文使用财务、经营、行业和宏观数据等与资产相关的特征值作为

7、内生变量，多维度囊括关于资产的有效信息；使用标签属性显著的信用利差作为中间变量，根据信用利差和违约频率的正相关性，建立单变量映射函数；使用违约频率作为外生变量，将模型训练结果拟合至直观的统计数据。通过上述变量的选择，模拟信用风险由内至外的演变过程。本文量化模型先后运用分布拟合、BP 神经网表 1 正常类和违约类债券信用利差变化对比时间截点2018/12/282019/12/302020/12/282021/12/31债券代码：127830.SH；票面利率：5.70%买入价格102.55106.88107.05105.02到期收益率5.394.864.805.01当日同期国债收益率3.243.1

8、33.172.77信用利差214.55172.70162.81224.37债券代码：143693.SH；票面利率：6.80%违约日：2022/06/20买入价格102.26104.8095.3182.34到期收益率6.364.9710.8354.46当日同期国债收益率2.932.762.752.23信用利差342.32221.52807.905 222.92络和支持向量机等算法原理，输入变量包括资产到期收益率、无风险利率、定性指标和定量指标等特征值以及违约频率统计值；输出变量包括信用利差、等级序列、违约概率和违约分类结果。图 1 模型算法原理四、模型算法的实证（一）信用利差与偏正态分布信用利差

9、即信用风险溢价，金融市场体现风险与收益对等的原则，越低的信用利差说明资产的违约风险越小。对信用债而言，业界多采用票面利率与国债收益率之差作为信用利差，由于票面利率多为固定利率，信用利差的变化也单纯由国债收益率的变动引起。本文选择债券到期收益率代替票面利率，到期收益率的变动可体现资产回报率的变化，便于动态反映信用风险。当投资金融风险金融经济2023 年第 4 期(总第 562 期)77者认为债券发行人信用质量显著下降时，该只债券遭到抛售，买入价格的下降和剩余期限的减少导致到期收益率上升，信用利差随之上升，如表 1所示。而到期收益率的上升变相地增加了发行人的还款压力，增大了债券的违约概率。目前业界

10、对信用利差数据的建模多采用正态分布，但正态分布具有左右完美对称的性质，而实际情形中利差分布较多呈现左偏或右偏、单侧瘦尾或肥尾的状态，此情形下，使用正态分布建模常导致某个区间的累积分布值被高估或低估，模型误差增大。例如默顿、KMV 和 CreditMetrics等模型中正态分布的应用均导致了模型结果与数据实际呈现的肥尾现象不符。因此，本文引入偏正态分布对利差数据进行建模，保证模型具备更高的拟合度和精准度。Azzalini（1985）首次提出偏正态分布的概念，并给出了相关定义式、性质、最大似然估计以及多维形式的归纳。引入偏度参数,若将标准正态分布的概率密度函数与累积分布函数分别记为(x)和(x)，

11、则偏正态分布概率密度函数为：f(x;,)=2-(x-)(x-)（1）提取截至 2021 年末我国房地产业和银行业的全部存续债券（剔除结构化产品）的相关数据（数据来源于 WIND 金融终端），计算信用利差并进行数据清洗，根据信用利差样本进行偏正态分布的参数估计和卡方拟合优度检验，结果如图2 和图3 所示。房地产业和银行业样本容量分别为 3 282 个和 835个，P 值分别为 0.230 8 和 0.262 8，结果均无显著性差异，模型结果和实际数据具备一致性。可视化效果同样说明，概率分布与原始数据拟合度较高，偏正态分布可更准确地反映信用利差分布的实际情况。对信用利差进行分箱处理，建立信用等级和

12、信用风险的映射关系，利差数值越小代表信用风险越低，对应的信用等级越高。此处分箱处理的为理论利差分布，而非样本观测值。常用的无监督学习数据分箱方法包括等距分箱、等频分箱和聚类分箱等。聚类分箱法由于对特征值定义缺乏明确的量化标准，类个数取决于建模人员的主观意见（例如将债券分为投资级和高收益级），因此不作为备选方法。等距分箱法是对随机变量进行等距分组，会产生样本数量较高（众数）或极少（尾部）的箱体，对样本数量较高的箱体的风控效果较差。从信用风险衡量的实际业务需求角度来讲，分箱后建立的等级序列需具备较好的区分效果，以便严格把控风险和降低投资亏损概率。提升序列区分度问题存在最优解，即等级序列与概率之间呈

13、均匀分布，此时不存在任何一个箱体的区分度高于或低于其他箱体，因此选择等频分箱法更符合建模需求。以箱体数量 9 个为例，分别代表 19 个信用利差区间即等级序列。每个箱体在偏正态分布上具有相等的积分值，因此通过逆累积分布函数即图 3 银行业信用利差与偏正态分布拟合结果图 2 房地产业信用利差与偏正态分布拟合结果信用利差频率/概率密度信用利差频率/概率密度金融风险金融经济2023 年第 4 期(总第 562 期)78可求得每个箱体的利差区间阈值。为方便理解，同样给予级别符号对应表示。表 2 为房地产业样本的等频分箱结果。可以看见，测试样本的分箱结果与理论值较为接近，卡方拟合优度检验结果无显著性差异

14、，整体区分度较显著。（二）违约概率与幂律分布对违约数据的统计表明，当资产的信用质量下降时，违约概率将以类指数形式增长。目前我国较多商业银行使用指数分布对违约概率进行预测（周四军和彭建刚，2008），即首先根据卡普兰生存分析法统计不同时间期限下样本的累积违约频率，再根据数据真值进行指数分布拟合得到对违约概率的预测。但指数分布的无记忆性特点与违约事件相矛盾，表现为系统内下一时刻的状态仅与当前状态有关，而与过去无关，该特点忽略了信用质量变化过程对违约概率所造成的影响，因此其尽管与违约率数据拟合度较高，但并不具备经济学解释性。幂律分布同样体现出与违约率数据的高拟合度，并且其内在原理应用于违约事件具备良

15、好的解释性。幂律现象可简单描述为事件发生的概率与事件规模的某个负指数成比例。导致幂律现象的原因包括自组织临界论、优先链接理论和大偏差理论，各理论均在极端事件的金融问题的应用中有着重要作用（胡海波和王林，2005）。将等级序列定义为随机变量 x，对应的 y 值为违约概率。在样本数据同时包括 x 值和 y 值时，使用曲线拟合可获得目标函数表达式和拟合优度，实现参数估计和假设检验的效果。本文以穆迪评级官方披露的 19832020 年全球平均累积违约率数据为样本进行检验，各期限下的违约数据拟合效果如表 3 所示，10 年期样本的拟合结果如图 4 所示。根据表 2 信用利差的等频分箱数据，统计序列 19

16、下房地产业样本 1 年期违约率，使用幂律表 2 房地产业等频分箱数据等级序列等级符号样本实际数量利差上限（BP）1AAA78108.902AA73145.233A77177.584BBB79210.865BB65247.386B58289.547CCC94342.248CC86419.479C85-卡方值P 值样本期望数量检验结果0.0180.10677.22无显著差异表 3 全球违约率数据拟合结果期限拟合优度（R2）误差平方和（SSE）均方根误差（RMSE）10.9830.0010.01120.9640.0080.02230.9580.0130.02840.9610.0160.03250.9690.0150.03060.9790.0110.027金融风险金融经济2023 年第 4 期(总第 562 期)79分布进行曲线拟合，结果如表 4 所示。由于我国信用债市场目前所积累的违约样本依旧较少，样本数据存在删失和截尾现象，因此拟合效果有所减弱。表 4 房地产业违约率数据拟合结果（1 年期）等级序列信用质量违约率真值违约率预测值190.00%0.10%281.35%0.46%371.22

展开阅读全文

基于机器学习算法的信用风险量化模型研究_李沐勋.pdf