图嵌入在上市公司信用风险预测中的应用

资源描述

1、第43卷第6期Vol.43 No.62022年12月Dec.2022韩山师范学院学报Journal of Hanshan Normal University收稿日期：2022-04-29基金项目：教育部人文社科项目（项目编号：17YJCZH210）.作者简介：杨城（1977-），男，重庆人，西南财经大学计算机与人工智能学院副教授，博士王畅为通讯作者图嵌入在上市公司信用风险预测中的应用杨城，曲傲，成对，王畅（1.西南财经大学计算机与人工智能学院，四川成都611130；2.韩山师范学院物理与电子工程学院，广东潮州521041）摘要：当今经济全球化背景下，几乎没有一家公司可以独善

2、其身，在对公司进行信用风险评估时引入外部关联方分析显得尤为重要受图嵌入方法的启发，从时间和空间双维度整合上市公司的持股关系，借助复杂网络理论，建立多年份持股网络图，并将改良的图嵌入算法引入模型，用于持股网络结构的学习同时，结合公司自身财务数据和违约记录，运用KMV模型和Z-score模型评估公司的信用风险等级，从结构和内容两方面学习关联网络的节点信息，最后依据多年份持股网络图进行针对性的随机游走，对上市公司的信用风险进行分析和传染预测还与两种经典算法Node2vec和Deepwalk进行对比分析，并预测新冠疫情对上市公司信用风险的影响，以验证本文方法的良好效果关键词：信用风险；持股网络；随机游

3、走；图嵌入中图分类号：TN 711.6文献标识码：A文章编号：1007-6883（2022）06-0017-08DOI：10.19986/ki.1007-6883.2022.06.0032021年下半年恒大集团爆出债务危机，近几年类似的事件还有安邦帝国覆灭、海航破产重组，以及贾跃亭乐视没落等，这些大公司的暴雷事件通过持股关系、债务关系和关联交易被进一步放大，直接或间接导致多家关联企业和个人发生信用风险危险传统模式下评估某家公司的信用风险往往局限于公司自身的财务指标，而对公司与外部世界的关联少有关注当今经济全球化背景下，任何公司都难以独善其身，将其关联方作为研究对象以评估公司的信用风险有着重要的

4、现实需求和理论意义因此，近年来越来越多的学者在研究信用风险传染时，在传统财务分析之外引入复杂网络的思想，借助图论方法进行预测，以便更加具象化地对公司运营状况进行整体研究1-3目前，对于复杂网络的研究已经不局限于社交网络、引文图谱、知识脉络等传统图论领域随着人工智能和深度学习的持续火热，面向复杂网络和图的深度学习算法逐渐成为一个热门研究方向图嵌入分析就是其中之一，其初衷是降低图分析问题中过高的计算成本和空间成本具体而言，图嵌入将图映射到一个低维空间，其目的是将节点编码为低维向量，从而更好地整合节点的结构位置和邻居节点的信息最先提出的图嵌入方法是Deepwalk算法4，它通过对短随机游动流进行建模

5、来学习顶点间的交互表示，游走路径随机采样在此基础上，Node2vec算法5提出了一种更优的图特征学习方法：它使用SGD梯度下降法来优化目标函数，以最大程度保留高维特征空间中每个节点的网络邻域信息，同时在原随机游走的基础上引入二阶随机游走，以保留更多的网络结构特征，包括网络结构的对等性和同质性上述两种算法在图论经典模型“空手道俱乐部”问题的研究中均取得了良好的效果 17除此之外，近些年图嵌入方法有了进一步的发展，主要分为LINE、Struc2Vec、GraphWave等以网络结构为标准的，和CANE、CENE等以网络结构配合节点信息为标准的两大类图嵌入方法受上述图嵌入方法的启发，将图嵌入算法的随

6、机游走采样类比成上市公司信用风险的传染，并根据分析对象和网络结构的特征进行算法改良，将其应用于持股网络中的上市公司信用风险的分析和传染预测1信用等级评定首先基于KMV模型和Z-score模型对上市公司的信用风险进行评估，再使用历史违约记录进行调整，形成公司的综合信用风险等级，并对其做离散化处理，形成信用风险标签，以用于后续的图嵌入分析本文采用的数据是2000年到2020年中国A股上市公司每年披露的资产负债表、利润表和十大持股股东信息表，以及上市公司的违约记录表，数据来源为国泰安金融数据库KMV模型又叫做预期违约率模型，是一种应用广泛的信用风险评估模型实践中由于部分公开数据的缺失，用中间参数“违

7、约距离”DD来评估风险，这也是KMV模型的常用近似计算法6-7Z-score模型又称为Z值分析法，它是一种通过多变模式来衡量企业破产风险的财务分析方法8本文在具体计算时采用了适应度最广的四变量模型：营运资金/总资产（X1）、留存收益/总资产（X2）、息税前利润/总资产的利润（X3）和股东权益的市场价值总额负债总额（X4）由于违约距离和Z指标来源于两个异构的评估模型，并且其数值在不同公司和不同年份之间的差距较大，因此将两个风险评估值离散化，映射为0-6共七个风险等级，其中0表示高度安全，6表示严重风险然后将二者平均，得到一个平均信用风险指标接下来引入上市公司的违约记录，在常规财务分析的基础上整合

8、公司更全面的运营状况，使得信用风险等级更能体现公司的实际状况调整方案是对平均风险等级进行降级：上市公司在某年内多次违规或发生重大违规时将等级降低两级，其他情况下等级下调一级，最终得出公司的综合信用风险指标图1展示了2015年上市公司基于Z-score模型、KMV模型和综合指标计算的信用风险等级的分布情况其他年份的综合信用风险等级分布与2015年基本类似图1基于KMV模型（a）、Z-score模型（b）和综合信用风险等级（c）的上市公司整体分布图（2015年）在后续持股网络中，为了更方便地体现公司节点的信用风险，引入全局标签节点当上市公司综合信用风险小于或等于三级时，将节点属性定义为good，其

9、他节点属性定义为bad2持股网络的构建与分析2.1构造持股网络将上市公司十大持股股东数据集里面的各家上市公司作为节点（注：很多股东非上市公司，未采用），彼此间的持股关系作为边，构建持股关系网络定义某时间点t的横向网络数据集为Dt，对应的 18持股网络图为gt=()Vt,Et,Wt，其中Vt为t时刻网络中的公司节点集合，即Vt=vt1,vt2,vt()nv，nv为网络节点总数；Et为该时间点的持股关联边，即Et=et1,et2,et()ne，ne为网络边的总数；Wt为持股关联边的权重，对应彼此间的持股比例，即Wt=wt1,wt2,wt()ne进一步，定义某个具有多个时间点的纵向网络数据集为DAT

10、，对应的持股网络结构为GT=g1,g2,gn，其中为该多时点网络最早的那个时间点，n为子图个数最后令()vi、()vi,vi+1为网络GT中某一节点和边所在横向网络对应的时间点t在这样的持股网络中，某节点的直连边体现的是直接持股，间接边（关联度大于等于2）体现的是间接持股图2展示了使用Gephi绘制的2015年上市公司的大致持股网络，以及当时由中国石化（节点600028）及其直接关联公司和部分间接关联公司构成的连通子图图22015年上市公司的持股网络图（左）和中国石化及其关联公司构成的连通子图（右）将GT中的子图个数取3，即以每三个连续年份的持股网络为一个构造单元，将每年的数据集Dt与前两年的

11、数据集Dt-1、Dt-2合并为一个新的数据集DAT，对应一个三层的纵向持股网络图同时，将每一层中的相同公司逐层连接，相同公司间的权重设为该公司后一年的平均持股权重这样每家公司不仅与其同期的关联公司相连，也与过去的自己相连，使持股网络具备了时间延续性如此，每一份新数据集DAT对应的网络结构不仅包含当年的持股信息，还共享了前两年的持股信息即持股网络汇集了基于空间的横向关联与基于时间的纵向关联，使得后续的风险传染预测能够更加全面地反映上市公司当前与过去所受到的综合影响2.2持股网络的随机游走上市公司间的信用风险传染可以看作是持股网络中不同节点的随机游走在传染路径中，每家公司均有可能受到其上下家的影响

12、，影响有好有坏，由关联上市公司的信用风险决定区别于标准的时间序列游走，基于持股网络中时间点的固定性（公司财报），通过添加额外约束进行改良，提出了一种新的时间跳跃模式：自环，即游走序列允许相同的公司节点连续存在此时游走路径的时间t变为t-1，游走网络由gt更新为gt-1对于每一个数据集DAT，每次游走取其最上层Dt中的某初始节点为起点，依据游走路径的长度，最远游走至最下层Dt-2定义对于某一时间点t的节点u，它下一步可能游走的节点集合L(ut)=N()ut ut-1，其中N()ut表示节点u在时间点t的邻居节点节点间的游走策略采用时序有偏采样，即游走概率由体现彼此持股比例的权重决定 19PT(u

13、)=W(u,vti)u L(vti)W(u,vti)，（1）其中W()u,vti为两节点之间边的权重，体现了各邻居节点在网络中的重要性差异特别地，相同节点在不同年份间纵向跳跃时，权重定义为节点进行无偏采样时的概率（即所有节点以相同的概率被选择）W(ut,ut-1)=1Degree(ut)，（2）其中Degree()ut为节点u在t时刻的总度数当节点拥有较多的邻节点时，游走路径会更多地在当前年份内延伸（横向跳跃）；而当节点的邻节点较少时，游走路径更容易向其他年份延展（纵向跳跃）2.3持股网络的图嵌入与向量学习对于多年份持股网络GT，我们的目标是使用这些网络结构化数据学习一个方程映射关系:V RN

14、，使得GT中的所有节点映射到一个N维的向量中，并且能够很好体现其结构化特征如此，给定某一游走序列St，需要解决的时间网络结构的图向量表示的最优化问题为maxflog(WdT=vi-w,vi+w vi|(vi)，（3）其中w为关联向量集的大小，即窗口大小，表示随机游走中所有可能搭配的长度值；WdT=vi-w,vi+w为随机游走对应的关联向量集，且对于任意WdT St，()vi-w,vi-w+1 ()vi+w-1,vi+w；:V RN为节点向量化方程为方便计算，简单假设关联向量集WdT中的每个节点对于点vi的影响概率相互独立，则()WT|()vi=j=i-k,j ii+k()vj|()vi，（4）

15、其中WT=vi-w,vi+wvi依据上一小节游走策略中的“自环”规则，游走序列的滑动窗口中可能存在同一个节点vi在vi-w到vi+w中多次出现的情况，故要求WT中的元素均不等于vi这种更新的方法称为SkipGram，它最初是一种语言模型，可最大程度地提高出现在窗口w内句子中单词间的共现概率，以更利于网络学习在这种类似于语言序列的游走序列中，它使用上面的独立性假设来近似替代公式中的条件概率，将每个源节点对()vi,vj的条件似然建模为一个softmax单元，其中的参数为两个节点的特征向量的数量积()vj|()vi=exp()vj()vivk Vexp()vk()vi，（5）实际应用中发现，当仅仅

16、采用上述方法进行图嵌入时，不同时间段的GT对应的图嵌入向量在数值上有较大的差异，因此需要对嵌入向量作一定的方向性指引这是一种较为常见的方法，2018年Airbnb公司就引入全局变量来引导推荐系统的学习倾向9-10将节点属性（good/bad）作为全局变量对学习结果进行引导，此时最优化问题变为maxvi V()-logZi+vj WT()vj()vi+()vflag()vi，（6）其中Zi=vj Vexp()vi()vj若使用负采样，负采样的嵌入公式变更为argmax()l,c Dplog11+e-vcvl+()l,c Dnlog11+evcvl+log11+e-vflagvl，（7）其中Dp为一系列曾经与目标点c共现过的节点对()l,c的部分集合，而Dn为一系列未与目标点c共现过的节点对()l,c的部分集合特别的，vflag=vgood,v WT,tag()v=goodvbad,v WT,tag()v=bad，它表示当某条游走序列一旦出现被标记为bad的节点时，需将该序列中所有出现过的向量作一次bad倾向调整 20在完成以上初步嵌入的基础上，本文对GT中各节点作进一步的处理将游走路径W

展开阅读全文

图嵌入在上市公司信用风险预测中的应用_杨城.pdf