1、2023.6电脑编程技巧与维护1实验数据分析1.1数据预处理数据预处理步骤如下。(1)去除企业发票数据中的重复值、缺失值、异常值和噪声数据,剔除无效发票数据,对于特征的构建均在有效发票数据的基础上进行计算。(2)将信誉评级A、B、C、D分别用数值4、3、2、1进行替换,其中,信誉评级A的企业信贷风险最低,信誉评级D的企业信贷风险最高。(3)将数据集随机划分为训练集和测试集,划分比例为82,其中80%的数据用于对模型进行训练,其余数据用于对模型进行测试。1.2样本数据特征挖掘根据企业发票数据,对信贷风险的评估指标进行整理,初步挖掘出反应企业综合实力与经营状况的10个隐藏特征,涵盖了企业发票中的全
2、部评估指标。它们分别是客户集中度、客户数、供应商数、订单取消率、年平均销售额、年平均净利润、年利润率、平均年利润增长率、平均年进项金额增长率及平均年销项金额增长率。1.3样本数据特征与企业信贷风险相关性挖掘出影响企业信贷风险的隐藏特征后,对变量进行相关性分析。根据相关性分析结果可知,与信誉等级相关程度比较高的特征有客户集中度、年利润率、年平均销售额、订单取消率及年平均净利润。1.4线性归一化处理线性归一化处理也被称为最小最大归一化处理,是对原始数据进行线性变换,将数据值映射到0,1之间,其目的是取消各维数据之间的数量级差别,可以起到统一量纲,防止小数据被吞噬的作用。线性归一化转换函数如公式(1
3、)所示。(1)其中,min(x)、max(x)分别为样本数据的最小值和最大值。2分类器构建2.1K 均值聚类K均值聚类(K-means clustering)算法通过使聚类误差最小进行簇的划分。具体定义如下:给定数据集合X=x1,x2,xn,xnRd,n=(1,2,N),K均值算法就是要将此数据集合按照聚类准则最优的原则分成M个互不相交的簇C1,C2,CM。通常情况下,K均值算法的聚类准则是类内误差总和最小。类内误差是指簇中的各元素xn到其簇中心mk的欧氏距离平方和,数学表达式如公式(2)所示1:(2)其中,为类内误差(方差)。通常用Esum代替E(m1,m2,mM),即Esum=E(m1,m
4、2,mM)。2.2BP 神经网络BP神经网络是一种按照误差逆传播算法训练的多层前馈神经网络,由输入层、隐含层和输出层构成。BP神经网络中的输入层和输出层节点个数都是已知的,输入层节点个数等于输入向量的维数,输出层节点个数等于测试分类个数,而隐含层的节点个数需要通过经验公式来判定,如公式(3)所示:(3)其中,m为隐含层的节点个数;n为输入层的节点个数;l为输出层的节点个数;为取值在110的调整常数值。作者简介:杜慧捷(1998),女,硕士,研究方向为数据分析。基于多分类器融合的信贷风险识别方法杜慧捷(东北大学,沈阳110819)摘要:针对银行对中小企业信贷风险预测的问题,提出了一种基于多分类器
5、融合决策的信贷风险识别方法。采用 K 均值聚类、BP 神经网络、决策树、随机森林作为分类识别器,通过融合 4 个分类器的预测结果,实现对企业信贷风险的识别。实验表明,多分类器融合决策达到了互补提升的效果,有效提高了识别的准确率。关键词:信贷风险识别;融合决策;K 均值聚类;BP 神经网络;决策树;随机森林125DOI:10.16184/prg.2023.06.0252023.6电脑编程技巧与维护2.3决策树决策树算法可通过一系列规则对数据进行分类。决策树算法在对数据进行处理后运用归纳算法生成可读的分类规则和决策树,然后使用决策对新数据进行分析,是一种分类算法2。在此使用CART算法构造决策树。
6、CART算法以“基尼指数”为基础构造决策树。Gi-ni index表示在样本集合中一个随机选中的样本被分错的概率,可以用来判断决策树中节点信息的不纯度,从而更好地帮助分割节点数据。数据集的纯度可用基尼值来度量,如公式(4)所示:(4)其中,pk为选中的样本在第k个类别中的概率。2.4随机森林随机森林算法是一种通过集成学习的思想实现多棵决策树结合的算法3。相比决策树,随机森林有着更强的泛化能力4。随机森林分类模型如公式(5)所示:(5)其中,H(X)为集成分类模型;hi(x)为单个基评估器分类模型;Z为单个基评估器分类模型的输出结果;I()为示性函数5。3多分类器融合方法投票法是集成学习中常用的
7、技巧,可以提高模型的泛化能力,减少模型的错误率6。在此融合决策过程通过投票法实现。基于4个分类器的识别结果进行投票融合决策,采用少数服从多数的规则,当不同预测结果票数相同时,以单独分类时准确率最高的分类器的结果作为最终预测结果。从而实现对多个分类算法的权衡,提高预测准确率。预测准确率定义如公式(6)所示:(6)4模型预测效果衡量标准运用预测准确率和Macro-F1衡量分类器预测效果。测试集上预测准确率如公式(7)所示:(7)其中,Nt为测试集中结果正确的样本数;N为测试集样本数。F1计算公式如公式(8)所示:(8)其中,查准率P与查全率R分别定义如公式(9)和公式(10)所示7:(9)(10)
8、Macro-F1定义如公式(11)所示:(11)5总体方案模型融合过程如图1所示。先通过训练得到BP神经网络、决策树及随机森林3种分类算法的模型,将测试数据集提取的特征输入3个分类器模型,得到3组不同的识别结果,再结合K均值聚类模型的识别结果,通过投票融合决策得到最终的识别结果。6案例分析在此案例分析中,企业发票数据来源于某数学建模竞赛发布的公开数据集。通过特征挖掘、实验分析及各项特征与信誉等级之间的相关性分析,最终选择客户集中度、年平均销售额及订单取消率作为特征构建K均值聚类模型,选择客户集中度、年平均销售额、订单取消率、年利润率及年平均净利润作为特征构建BP神经网络模型,选择客户集中度、年
9、平均销售额、订单取消率及年利润率作为特征构建决策树和随机森林模型。将信贷数据按照82的比例进行划分,其中,80%图1模型融合过程Training processModel trainingBP neuralnetworkTraining setFeatureextractionDecision TreeRandom ForestTest processBP neuralnetworkresult lTest setFeatureextractionDecision Treeresult 2Random Forestresult 3Featureextractionsetk-meansresul
10、t 4VotingOutput(下转第157页)1262023.6电脑编程技巧与维护的数据作为训练数据;20%的数据作为测试数据。基于训练样本数据,训练BP神经网络、决策树及随机森林分类器。运用测试样本数据验证各分类器的识别性能,并结合K均值聚类模型的识别结果,将4组识别结果通过投票融合决策得到最终的识别结果。4个分类器的分类准确率和Macro-F1值都在75%以上,其中,随机森林分类器的预测效果最好,准确率为92%,Macro-F1值为91.09%。因此在融合决策过程中,当遇到不同预测结果的得票数相同时,以随机森林分类器的识别结果为准。通过融合4个单分类器的分类结果,最终分类结果识别准确率提
11、升到96%,Macro-F1值提升到96.76%,这说明了4个单分类器在决策中确实存在互补性,将4个单分类器的分类结果融合可以达到整体识别性能提升的效果。从图2可以直观地看到4种单分类器及将多个分类器分类结果融合后对4个信贷风险类别预测的情况。7结语针对银行对中小企业信贷风险预测的问题,提出了一种基于多分类器融合决策的识别方法,利用K均值聚类、BP神经网络、决策树、随机森林4种分类器间的互补特性提高了识别的准确率,为信贷风险预测领域提供了一种新的思路。参考文献1王晓燕.K-均值算法与自组织神经网络算法的改进研究及应用D.太原:中北大学,2017.2VECHEV M.Technical Pers
12、pective:Beautiful SymbolicAbstractions for Safe and Secure Machine LearningJ.Communications of the ACM,2023,66(2):104.3RYU J Y,JANG W D,JANG J,et al.PredAOT:a com-putational framework for prediction of acute oral toxic-ity based on multiple random forest modelsJ.BMCBioinformatics,2023,24(1):66.4TRIN
13、DADE P H E,MELLO J,SILVA N,et al.Im-proving Ovine Behavioral Pain Diagnosis by Imple-menting Statistical Weightings Based on Logistic Re-gression and Random Forest Algorithms J.Animals(Basel),2022,12(21).5李明,褚恬恬.基于贝叶斯优化的随机森林算法在地下空间开发适宜性评价中的应用J.吉林建筑大学学报,2022,39(6):15-20.6田野,张晓灿,汤跃忠.基于多分类器融合决策的车辆鸣笛声识别
14、方法J.电声技术.2022,46(7):85-87.7LATHER M,SINGH P.Tumor segmentation from brainMR images using STSA based modified K-means clus-tering approach J.Journal of Intelligent&FuzzySystems,2022,43(3):2579-2595.图2各分类器及融合决策的识别效果比较Multiclassification Comparison Chart of Model Prediction Effects120.00%100.00%80.00%6
15、0.00%40.00%20.00%0.00%K-meansBP neuralnetworkDecision TreeRandomForestVotingF1Score 1F1Score 2F1Score 3F1Score 4AccuracyMacro-F1120.00%100.00%80.00%60.00%40.00%20.00%0.00%化等不足之处。该平台应在保持多元的同时,聚焦不足,积极升级用户体验,持续提高质量,更好地满足用户的需求。参考文献1孙俊辉,高岭,高全力,等.基于Unity3D的虚拟化学智能课堂系统J.计算机系统应用,2021,30(6):68-74.2熊巍,何蔚珊.基于Unity3D的化学虚拟实验系统设计与实现J.实验技术与管理,2020,37(2):28-31.3闫兴亚,王馨梅,魏梦婕.基于虚拟现实的丝绸之路交互系统的设计与开发J.计算机与数字工程,2020,48(4):838-842.4刘霞,左长辉,刘东东,等.Unity平台下的交互式虚拟演播场景设计J.电视技术,2018,42(8):97-99.5陈泽婵.基于Unity3D的移动增强现实光学实验平台D.北京:北京理工大学,2015.(上接第126页)157