ImageVerifierCode 换一换
格式:PDF , 页数:9 ,大小:1.67MB ,
资源ID:2515033      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/2515033.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于机器学习算法的信用风险量化模型研究_李沐勋.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

基于机器学习算法的信用风险量化模型研究_李沐勋.pdf

1、金融风险金融经济2023 年第 4 期(总第 562 期)75一、引言信用风险作为金融市场风险的重要组成之一,其被衡量的方式始终被市场参与方所重视。投资者、金融机构、监管部门出于风控需求,对信用风险衡量的要求也趋于更加精准和动态。信用风险计量模型则在其中扮演最为关键和重要的角色,其科学性和准确性成为风险计量结果好坏的基础性因素。金融学中大部分研究对象的本质都是复杂、多维和非线性的。传统的信用风险计量模型难以处理高维数据和非线性问题,多具备较严格的假设条件,并且算力难以支持大量模拟和迭代优化,因此计算结果常与实际情形存在较大误差。随着金融工程的发展和计算机算力的增长,机器学习作为人工智能的重要成

2、果之一,在金融风控领域的应用日益广泛。该类算法将概率论、统计学、最优化理论等科学理论与计算机的强大算力相结合,既可快速、自动地处理高维数据,还能在不断学习和优化过程中提高模型的泛化能力,通过复杂多样的函数输出更准确的预测结果。可以预见,机器学习模型的应用和迭代将带动信用风控技术进入新纪元。本文利用统计学原理以及机器学习算法,构建资产信用风险溢价和违约概率量化模型,以解决传统模型中的各类局限和不足,输出更准确的量化预测结果。二、传统信用风险衡量模型信用风险衡量模型的发展经历了三个阶段:第一阶段为 20 世纪 60 年代之前的专家分析法,通过专家经验和主观分析来评估信用风险;第二阶段为 20 世纪

3、 70 年代至 90 年代的信用评分模型,包括线性概率模型、Logit/Probit 模型和 Z-score模型,20 世纪 60 年代的信用卡业务催生了该类模型的发展,这也是数学模型首次应用于信用风险领域;第三阶段为 20 世纪 90 年代至今的违约概率模型,例如 KMV 模型、CreditMetrics 模型和CreditRist+模型,该阶段的模型将金融理论与数学相结合,对信用风险的评估由分类上升至计量。目前,信用评分模型仍被国内外评级机构和多数金融机构应用于信用风险评估,违约概率模型则多被商业银行使用,用于信贷审批、信用卡额度审批和信用风险敞口的计算。然而信用风险衡量模型的发展已停滞近

4、三十年,其固有的缺陷也日益暴露,难以满足更高的风控需求。信用评分模型使用了较多的内生变量,例如财务数据、主体资质、资产特征等,但最终仅输出分类结果,并无进一步的量化信息;并且模型计算中仅使用初等函数,应用的数学理论较为简单。而违约概率模型虽然实现了进一步的风险计量,但考虑的内生变量较少,例如 KMV 模型中基于机器学习算法的信用风险量化模型研究 李沐勋摘要:传统的信用风险计量模型难以处理高维数据和非线性问题,多具备较严格的假设条件,计算结果常与实际情形存在较大的误差。本文综合考虑影响信用风险的内生变量和外生变量,使用更优的非线性变换方式拟合数据,并借助机器学习强大的算力和学习迭代优势量化信用风

5、险。实证结果表明,该模型算法可提高预测结果的拟合度和准确性。关键词:债券市场;机器学习;信用风险计量中图分类号:F832.5 文献标识码:A 文章编号:1007-0753(2023)04-0075-09收稿日期:2023-01-05作者简介:李沐勋,高级研究员,安泰信用评级有限责任公司,研究方向为量化风险控制。DOI:10.14057/43-1156/f.2023.04.009金融风险金融经济2023 年第 4 期(总第 562 期)76仅考虑资产与负债规模的内生变量,CreditMetrics模型和 CreditRist+模型仅使用了违约频率的外生变量,并且应用的统计学模型局限于正态分布,弱

6、化了拟合度和尾部风险。此外,传统模型中尚未探索出信用风险溢价与违约概率之间的映射关系,以及对违约的预警功能。三、模型算法原理外生变量是资产信用风险变化的直接体现,例如生存率、死亡率(违约率)、等级迁徙率等,可通过简单的计算统计得到。内生变量是影响资产信用风险的本源性因素,例如资产归属主体的资质、财务状况和经营状况,它们之间通过复杂的联系和变化影响着资产的违约概率,难以用简单的函数进行表达。此时可通过引入具有代表性的标签值作为中间变量,一方面构建更显著的映射特征,另一方面强化深度,寻找更优的非线性变换方式以拟合数据。鉴于此,在变量选择上,本文使用财务、经营、行业和宏观数据等与资产相关的特征值作为

7、内生变量,多维度囊括关于资产的有效信息;使用标签属性显著的信用利差作为中间变量,根据信用利差和违约频率的正相关性,建立单变量映射函数;使用违约频率作为外生变量,将模型训练结果拟合至直观的统计数据。通过上述变量的选择,模拟信用风险由内至外的演变过程。本文量化模型先后运用分布拟合、BP 神经网表 1 正常类和违约类债券信用利差变化对比时间截点2018/12/282019/12/302020/12/282021/12/31债券代码:127830.SH;票面利率:5.70%买入价格102.55106.88107.05105.02到期收益率5.394.864.805.01当日同期国债收益率3.243.1

8、33.172.77信用利差214.55172.70162.81224.37债券代码:143693.SH;票面利率:6.80%违约日:2022/06/20买入价格102.26104.8095.3182.34到期收益率6.364.9710.8354.46当日同期国债收益率2.932.762.752.23信用利差342.32221.52807.905 222.92络和支持向量机等算法原理,输入变量包括资产到期收益率、无风险利率、定性指标和定量指标等特征值以及违约频率统计值;输出变量包括信用利差、等级序列、违约概率和违约分类结果。图 1 模型算法原理四、模型算法的实证(一)信用利差与偏正态分布信用利差

9、即信用风险溢价,金融市场体现风险与收益对等的原则,越低的信用利差说明资产的违约风险越小。对信用债而言,业界多采用票面利率与国债收益率之差作为信用利差,由于票面利率多为固定利率,信用利差的变化也单纯由国债收益率的变动引起。本文选择债券到期收益率代替票面利率,到期收益率的变动可体现资产回报率的变化,便于动态反映信用风险。当投资金融风险金融经济2023 年第 4 期(总第 562 期)77者认为债券发行人信用质量显著下降时,该只债券遭到抛售,买入价格的下降和剩余期限的减少导致到期收益率上升,信用利差随之上升,如表 1所示。而到期收益率的上升变相地增加了发行人的还款压力,增大了债券的违约概率。目前业界

10、对信用利差数据的建模多采用正态分布,但正态分布具有左右完美对称的性质,而实际情形中利差分布较多呈现左偏或右偏、单侧瘦尾或肥尾的状态,此情形下,使用正态分布建模常导致某个区间的累积分布值被高估或低估,模型误差增大。例如默顿、KMV 和 CreditMetrics等模型中正态分布的应用均导致了模型结果与数据实际呈现的肥尾现象不符。因此,本文引入偏正态分布对利差数据进行建模,保证模型具备更高的拟合度和精准度。Azzalini(1985)首次提出偏正态分布的概念,并给出了相关定义式、性质、最大似然估计以及多维形式的归纳。引入偏度参数,若将标准正态分布的概率密度函数与累积分布函数分别记为(x)和(x),

11、则偏正态分布概率密度函数为:f(x;,)=2-(x-)(x-)(1)提取截至 2021 年末我国房地产业和银行业的全部存续债券(剔除结构化产品)的相关数据(数据来源于 WIND 金融终端),计算信用利差并进行数据清洗,根据信用利差样本进行偏正态分布的参数估计和卡方拟合优度检验,结果如图2 和图3 所示。房地产业和银行业样本容量分别为 3 282 个和 835个,P 值分别为 0.230 8 和 0.262 8,结果均无显著性差异,模型结果和实际数据具备一致性。可视化效果同样说明,概率分布与原始数据拟合度较高,偏正态分布可更准确地反映信用利差分布的实际情况。对信用利差进行分箱处理,建立信用等级和

12、信用风险的映射关系,利差数值越小代表信用风险越低,对应的信用等级越高。此处分箱处理的为理论利差分布,而非样本观测值。常用的无监督学习数据分箱方法包括等距分箱、等频分箱和聚类分箱等。聚类分箱法由于对特征值定义缺乏明确的量化标准,类个数取决于建模人员的主观意见(例如将债券分为投资级和高收益级),因此不作为备选方法。等距分箱法是对随机变量进行等距分组,会产生样本数量较高(众数)或极少(尾部)的箱体,对样本数量较高的箱体的风控效果较差。从信用风险衡量的实际业务需求角度来讲,分箱后建立的等级序列需具备较好的区分效果,以便严格把控风险和降低投资亏损概率。提升序列区分度问题存在最优解,即等级序列与概率之间呈

13、均匀分布,此时不存在任何一个箱体的区分度高于或低于其他箱体,因此选择等频分箱法更符合建模需求。以箱体数量 9 个为例,分别代表 19 个信用利差区间即等级序列。每个箱体在偏正态分布上具有相等的积分值,因此通过逆累积分布函数即图 3 银行业信用利差与偏正态分布拟合结果图 2 房地产业信用利差与偏正态分布拟合结果信用利差频率/概率密度信用利差频率/概率密度金融风险金融经济2023 年第 4 期(总第 562 期)78可求得每个箱体的利差区间阈值。为方便理解,同样给予级别符号对应表示。表 2 为房地产业样本的等频分箱结果。可以看见,测试样本的分箱结果与理论值较为接近,卡方拟合优度检验结果无显著性差异

14、,整体区分度较显著。(二)违约概率与幂律分布对违约数据的统计表明,当资产的信用质量下降时,违约概率将以类指数形式增长。目前我国较多商业银行使用指数分布对违约概率进行预测(周四军和彭建刚,2008),即首先根据卡普兰生存分析法统计不同时间期限下样本的累积违约频率,再根据数据真值进行指数分布拟合得到对违约概率的预测。但指数分布的无记忆性特点与违约事件相矛盾,表现为系统内下一时刻的状态仅与当前状态有关,而与过去无关,该特点忽略了信用质量变化过程对违约概率所造成的影响,因此其尽管与违约率数据拟合度较高,但并不具备经济学解释性。幂律分布同样体现出与违约率数据的高拟合度,并且其内在原理应用于违约事件具备良

15、好的解释性。幂律现象可简单描述为事件发生的概率与事件规模的某个负指数成比例。导致幂律现象的原因包括自组织临界论、优先链接理论和大偏差理论,各理论均在极端事件的金融问题的应用中有着重要作用(胡海波和王林,2005)。将等级序列定义为随机变量 x,对应的 y 值为违约概率。在样本数据同时包括 x 值和 y 值时,使用曲线拟合可获得目标函数表达式和拟合优度,实现参数估计和假设检验的效果。本文以穆迪评级官方披露的 19832020 年全球平均累积违约率数据为样本进行检验,各期限下的违约数据拟合效果如表 3 所示,10 年期样本的拟合结果如图 4 所示。根据表 2 信用利差的等频分箱数据,统计序列 19

16、 下房地产业样本 1 年期违约率,使用幂律表 2 房地产业等频分箱数据等级序列等级符号样本实际数量利差上限(BP)1AAA78108.902AA73145.233A77177.584BBB79210.865BB65247.386B58289.547CCC94342.248CC86419.479C85-卡方值P 值样本期望数量检验结果0.0180.10677.22无显著差异表 3 全球违约率数据拟合结果期限拟合优度(R2)误差平方和(SSE)均方根误差(RMSE)10.9830.0010.01120.9640.0080.02230.9580.0130.02840.9610.0160.03250.9690.0150.03060.9790.0110.027金融风险金融经济2023 年第 4 期(总第 562 期)79分布进行曲线拟合,结果如表 4 所示。由于我国信用债市场目前所积累的违约样本依旧较少,样本数据存在删失和截尾现象,因此拟合效果有所减弱。表 4 房地产业违约率数据拟合结果(1 年期)等级序列信用质量违约率真值违约率预测值190.00%0.10%281.35%0.46%371.22

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2