1、 ,基金项目微型电脑应用 年第 卷第期基金项目:国网安徽电力合肥供电公司智慧光伏监测与运营平台项目()作者简介:周开保(),男,硕士,教授级高级工程师,研究方向为营销管理、综合能源管理技术、营销管理、综合能源管理;吴朝文(),男,本科,高级工程师,研究方向为电力通信、电力系统自动化、电网信息化;桂宁(),女,本科,高级工程师,研究方向为电网信息化、电力大数据技术;王尉(),男,硕士,工程师,研究方向为电力物联网、大数据分析技术;李文芳(),女,本科,高级经济师,研究方向为营销管理、综合能源管理;江佳健(),男,本科,助理工程师,研究方向为电气工程及其自动化、电力营销技术。文章编号:()基于用电
2、数据的企业信用评价定级技术咨询服务周开保,吴朝文,桂宁,王尉,李文芳,江佳健(国网安徽省电力有限公司合肥供电公司,安徽,合肥 )摘要:常规的企业信用评级方案具有滞后性,存在无法进行量化分析和评价效率低下等问题,通过对企业用电数据进行分析,并利用优化 聚类算法和云计算技术去除季节变换对企业能耗的影响,得出受企业发展影响用电数据模型,通过该用电数据模型反推企业发展状况,以此完成对企业信用的评价。通过将该方案的评价结果与年终财报评价进行比较,可以得出本研究设计信用评级方案的准确率在 以上,并且平均准确率达到。关键词:企业信用评价;用电数据;聚类算法;云计算技术;数据挖掘中图分类号:文献标志码:,(,
3、):,:;引言在经济全球化和金融自由化的背景下,信用风险在金融风险中的占比不断增加,因此需要针对企业信用设计一套评级方案,来降低金融风险。由于常规信用评级方案的不足,文献 中提出利用公共信息对企业发展状况进行分析,并建立企业诚信评级赋权方案、对企业的投入产出比进行量化处理,以此完成对企业的信用评级,但是由于公共信息繁杂,且包含大量的虚假信息,因此进行评级时需要对信息进行仔细甄别,无法高效地进行信用评级;文献 中利用高管连锁网络对企业信用进行评级,并对企业的有形资产和企业信息质量进行评测,以此完成对企业信用的评级,但是由于高管网络中心度有较强的主观性,不易于量化来进行客观化分析,因此在对企业信用
4、评级过程中无法保证其客观性。针对于上述文献的不足,本研究利用企业的用电数据分析企业的发展状况,并以此完成对企业信用的评级,以下为企业信用评级的详细说明。企业信用评价方案本研究设计的企业信用评级方案如图所示。如图所示,方案通过对企业的电力数据进行分析,针对不同种类的企业建立不同的企业用电数据评级模型,通过评级模型对企业用电数据进行分析,并对该企业信用做出评 ,基金项目微型电脑应用 年第 卷第期图企业信用评级方案级。在企业信用评级方案中首先通过用电数据采集单元对企业的用电数据进行采集,其用电数据来源主要为智能化电表采集系统、电力营销业务采集终端和企业自身发电能源三个方面。将这三个方面数据进行汇总,
5、通过用电数据分析单元对数据进行分析;在用电数据分析单元中将数据处理分成数据管理层和数据计算层,在数据管理层中将用电数据进行转换和抽取,建立用电数据的多维度模型,该数据多维度模型包含有用户信息、时间、用电数据等信息,将数据汇集编写成一整套多维度的数据集合,在数据计算层中通过对用电历史数据进行挖掘,分析用电需求变化曲线,并根据历史变换曲线对该企业未来的用电数据进行预测,完成对企业的用电数据的预测。通过分析电力需求变化预测与实际需求变化的差别,得出该企业在未来一段时间的发展状况,并以此企业信用评级;在用电数据存储中通过对信息之间进行连接,将同一用户的编号、时间、用电特征等信息编写在一起,方便对用电数
6、据的调用;通过利用用电预测数据的偏差对企业发展状况进行分析,并以此建立企业信用评级模型,以此来得出企业的信用等级。用电数据分析方案 优化 聚类算法在 聚类算法中通过计算两个样本之间的欧氏距离来作为两个样本相似程度的标识。在样本数据集合中,通过样本密度参数选取个聚类中心,计算其余样本到这些聚类中心的最小值,以此完成的对样本的分类处理,其中假设样本数据集合如式()所示。,;,();(),()其中表示为用个数据样本的集合,样本和样本表示为数据样本在多维空间的坐标,通过计算两个数据样本之间坐标位置的欧氏距离可以得出该样本的相似程度,其中欧氏距离的计算公式如式()所示:()()()()()在对每个样本的
7、欧氏距离计算中会产生一定的误差,其中聚类算法所产生的误差的平方和公式如式()所示。()其中,表示为样本进行聚类处理的类别数量,表示为类样本中所包含的样本数量,表示为在类样本中每个样本数据的平均值。在传统的 聚类算法中采用随机选取聚类中心的方案,但是由于样本在空间中分布的密度并不相同,因此在样本密度低的位置选取较多的聚类中心会严重影响聚类算法的聚类效果,因此本研究通过利用样本在空间中的分布密度来进行选取聚类中心,在样本集合中所有样本的欧式距离平均值可以表示为 (),其平均距离的计算公式如式()所示 ()(),()()如式()所示,通过计算样本的平均距离与实际距离进行比较,就可以计算出样本的空间密
8、度,其中样本的空间密度如式()所示。()()()其中函数()为 组 合 函 数,该 函 数 的 组 成 结 构 如 式()所示。(),()在样本的空间密度函数式()中,表示为样本距离小于平均值的个数,通过将样本距离小于平均距离的样本建立成一个样本集合,该集合中样本的平均距离计算公式如式()所示。()()()()(),()()如式()所示,小样本集合中不同单元的平均距离可以表示为式():():()(),(),()(),(),!,()()()如式()所示,其中!表示为不存在。通过将样本集合的样本密度、集合内样本平均距离以及小样本集合间平均距离进行综合求解,可以得出其样本聚类中心的权重计算公式:()
9、()()()式()中样本密度越大表示为集合中样本的分布越是集中;集合中样本平均距离约束小,则在小样本集合中样本越是集中,需要针对不同单元的样本越是集中,当小样本集合中距离越大,则小样本集合中差异性越大,通过最大化权重可以更好的求解出最优化的聚类中心。,基金项目微型电脑应用 年第 卷第期 基于云计算的用电数据挖掘方案为实现对企业用电数据进行预测,本研究利用云计算的方案对规范化的数据进行处理,并将用电数据采用 分布式存储系统进行切片化存储,通过并行的运算模型将初始化的聚类中心进行分配,其中优化的并行运算的数据挖掘算法,如图所示。图优化的并行运算的数据挖掘算法()通过将采集到的用电数据进行初始化处理
10、,并以键值对的方式在数据库中进行存储,其中 定义为用户的编号,通过利用时间和用户的编号设计唯一的数据编码,以此完成键值 的作用,包含有用户的用电数据以及载荷等用电特征信息。()利用分布式存储系统中 节点对每个数据块进行处理,计算每个节点中的样本密度,并通过最大权重法计算出多个样本簇,以此完成对样本的合并,并计算出样本中聚类中心,实现对 的编码。()通过 函数计算 数值中的特征向量和初始聚类中心的欧式距离,并通过尽力最小化距离对聚类中心进行优化,完成对最小平均距离簇的搜寻。()为减小计算过程中对通信的利用,在运算过程中需要对键值进行综合处理,利用键值数据进行哈希分区,通过分区可以得出不同簇的运算
11、中心。()通过重复第步到第步,直到算法中进行计算聚类结果的误差值达到稳定,在此时就可以输出各个簇的相应信息,完成对用电数据的挖掘工作。模拟仿真试验本研究通过利用某企业 年到 年的用电数据和企业财报信息进行模拟实验,计算机模拟环境为:选用 作为操作系统平台,设置计算机内存为,本次模拟仿真实验的软件选取 软件,并利用 框架进行搭建个节点的数据分析集群,这个分析集群中包含有个 运算节点和个 运算节点,在对分布式算法进行训练的数据集中采用种常用的数据集合,其中训练集的相关数据如表所示。表训练数据集相关参数数据集数据量属性数类别数 由于在 年该企业全年处于稳定状态,全年生产变化不大,因此可以以该年的电力
12、需求变化曲线为电力需求基准线,其中该一年的用电数据统计如图所示。图企业 年耗电数据曲线如图所示,该图像为通过统计该企业在 年每个月份的用电数据,通过图像可以得出在夏季和冬季由于需要制冷和制热需要消耗更多的电力,在春秋季不要额外的电力支援,因此耗电量较少,因此该曲线基本满足企业全年变化规律,可以采用该曲线为企业耗电数据的基准数据。通过利用 年企业用电数据减去基准数据就可以得出企业发展对电力需求的影响数据,通过利用该企业在 年的财务报表对该年的营业额进行提取,利用 软件进行求解相关性,由此可以得出这两个数据在统计学上具有相关性。为了验证本研究设计分布式数据聚类方案的运行效率,在并行模式下数据聚类耗
13、时统计如图所示。图单机模式和四种不同节点数量的分布式模式的运行耗时数据。当数据量较小时,每种模式的耗时数据差距并不明显,随着数据量的不断增加,可以看出分布式节点越多则聚类算法的运行效率越高,因此采用分布式算法进行数据挖掘可以更高效地进行数据分析。,基金项目微型电脑应用 年第 卷第期图并行模式下数据聚类耗时统计图为了验证本研究设计的利用用电数据对企业信用进行评价方案的可靠性,评级准确度结果如图所示。图中,实线表示为利用用电数据进行企业信用评级的准确率,虚线表示为利用数据包络进行企业信用评级的准确率。通过图像可以得知本研究设计信用评级方案的准确率在 以上、平均准确率达到;采用数据包络方案进行信用评
14、级的准确率平均在,所以本研究设计的评级方案有更高的准确率。图企业信用评级准确率总结本研究通过对企业的用电数据进行分析,将单机模式和包含不同分布式节点数量的模型对不同数据量的数据进行处理,可以得出节点越多,算法运行效率越高。通过将 年用电数据的评级结果、数据包络方案的评级结果与该年年末的财务报表中的企业信用评级进行比较,可以得知本研究设计信用评级方案的准确率在 以上、平均准确率达到,具有较大的实用价值。参考文献王海兵,周彬 内部控制、审计意见与企业信用评级 重庆 理 工 大 学 学 报(社 会 科 学),():徐丹 构 建 电 力 企 业信用 评 价 体 系 大 众 用 电,():楼裕胜公共信用
15、信息环境下的企业信用评价研究统计与信息论坛,():王建琼,陈冲高管连锁网络对企业信用评级的影响研究:基于股上市公司的经验分析工业技术经济,():周茜,谢雪梅,吕淼虹众筹模式下小微企业信用风险测度与评级转移模型模糊系统与数学,():陈洪海,王慧,隋新基于信息解释能力的小企业信用评级体系构建研究系统工程学报,():翟玲玲,吴育辉信用评级的融资与监督效应:来自企业并购的证据南开管理评论,():周颖基于信息增益的小型工业企业信用评级模型运筹与管理,():王彦,陆海,杨洋,等基于数据融合算法的电网用电量数据分析方法节能技术,():刘明红,袁昕,童辉高维电力数据的聚类优化算法的研究科技通报,():,():
16、(收稿日期:)(上接第)王婷,夏阳雨新,陈铁明基于多类别特征体系的股票短期趋势预测计算机科学,():刘金培,郭艺,陈华友,等基于非结构数据流行学习的碳价格多尺度组合预测控制与决策,():徐志超,曹瑜数据挖掘下金融大数据在现代金融市场中的应用:评 金融大数据 国际税收,():温廷新,孔祥博不平衡样本下的金融市场极端风险预警研究计算机工程与应用,():林培光,周佳倩,温玉莲 :一种基于情感分析的金融市场趋势预测方法 计算机研究与发展,():张品一,梁锶基于 神经网络模型的金融产业发展 趋 势 仿 真与预测 管 理 评 论,():支鸿羽,辜梦月,李雨捷,等利用术前指标基于机器学习算法预测腹部手术后死亡风险模型的建 立中华麻醉学杂志,():贾洁琼,刘万青,孟庆岩,等基于 影像和机器学习算法的玉米叶面积指数估算中国图象图形学报,():李静,徐路路基于机器学习算法的研究热点趋势预测模型 对 比 与 分 析:神 经 网 络、支 持 向 量 机 与 模型现代情报,():(收稿日期:)