1、 基于电力大数据的电费回收风险预测方法研究程威(国网安徽省电力有限公司和县供电公司)摘要:电费回收管理是电力企业生产经营活动的一项重要组成部分,由于普遍采用的是先用电后缴费的方式,因此造成了电费回收周期长等问题,电费回收逐渐成为影响电力企业生产经营的一大困扰。本文从电力大数据的角度出发,采用最优变量分组法和证据权重转化法对电力大数据进行了预处理,采用逻辑回归法构建了电费回收风险预测模型,并基于模型运算结果,根据评分卡函数实现电力用户的风险等级划分,为对不同风险等级的电力用户采取差异化电力营销策略提供依据。关键词:电力大数据;电费回收;风险预测 引言为了解决电力企业电费回收周期长、回收困难的问题
2、,电力企业从技术方面深入研究了基于电力用户风险的电费回收预测方法,实现了电费回收抗风险能力的提升 ,。但是电力企业并不具备对用户欠费风险进行预判的能力,不能够依据用户的欠费风险等级采取有效的风险应对措施。因此,为了实现企业的电费回收抗风险能力的提升,在此方面展开风险预测意义重大 。为了保证电力企业具备足够的风险抵御能力、进一步降低企业经营风险,对电费回收风险进行科学、精准的预测尤为重要 。本文基于电力大数据提出了电费回收风险预测方法,实现了电力用户风险等级的科学划分,制定了相应的差异化电力营销策略,有效提高了电费回收率 。数据预处理.最优变量分组变量分组是基于一定的特征信息,对变量进行合理归类
3、处理,从而实现其影响基数的减弱;或者对数值型变量进行合理分段,将其等效成分类变量 。变量分组是由决策树模型寻取最优解的分组方案,即首先基于预测力指标最大寻取最优的二元分割点,后重复上述过程进行分类划分,直至达到最大分组数时完成变量分组 ,。.证据权重转化将分类变量转换为数值型变量,这样能够实现模型的简化,降低其建模复杂程度 ,并且可以将逻辑回归模型变换为标准评分卡的形式,以便于后续的应用。对于某个分类变量中的第 组,证据权重转化的计算方法如下:()()*()*()|()其中,为某个分类变量;和 分别为分类变量 中第 类在目标变量中的产生响应数量占总体响应数量的概率占比和没有产生响应数量占总体未
4、响应数量的概率占比;和*都是个数值,信息值描述了这个分组中产生响应的电力用户和没有产生响应的电力用户和全部样本集合中这个比率的差异情况;值越大,对应的信息值就越大,则这个分组里的样本响应概率占比就越大。经过证据权重变换,就实现了分类变量到数值变量的转换,并且保持了原有的分布。模型构建.模型构建思路模型的构建思路见表 。首先,要进行数据的预处理,对于关联性较强的数据,不需要全部保留,与此同时建立衍生变量,以作为模型构建的数据基础 。其次,对数据进行前期的特征属性分析,通过对欠费用户的用电行为、用电变化情况、用电偏好等情况进行初步的统计分析,形成最基本的构建思路,作为指标选取的基准 。再次,确定相
5、关指标,构建指标体系,根据逻辑回归模型的要求,进行聚类、关联、成分分析,这样能够降低模型中变量维度,得到各个指标相应的权重参数,通过变量分组和证据权重转化实现数据变换,以满足建模对于数据的具体要求 。最后,对模型进行训练校验,完成模型评估,反复训练得到最优模型。电气技术与经济 研究与开发 表 模型构建思路构建思路数据预处理数据探索指标体系构建算法选取模型构建模型评估数据质量检查完整性合理性一致性数据清洗异常数据处理冗余数据处理数据转化数据仓库 技术欠费用户综合特征欠费用户行为特征欠费用户欠费因素筛选指标基于多维度构建模型指标同维度下进行主成分分析、简化入模指标变量预处理逻辑回归算法证据权重转化
6、算法模型结果转化决策树法广义线性模型逻辑回归方法定性评估定量评估命中率、覆盖率、提升度基于回归模型的假设检验方法.用户特征分析基于决策树法建立欠费电力用户的分类模型,掌握欠费用户的特征,分类结果见表 。表 欠费用户特征分类规则分类变量名规则特征规则 现金存缴比例 存缴渠道数量 月初存缴次数 半年内累计存缴次数 规则 现金存缴比例 存缴次数 月上旬存缴次数 月中旬存缴次数月下旬存缴次数 近半年电费均值 元存缴渠道微信供电单位编号*.逻辑回归法逻辑回归能实现二分变量与其影响因素之间关联关系的科学分析,是基于线性模型发展而来的,其常规表达式为:()()其中,为二分变量产生的概率,其取值区间为 ;为模
7、型建立之后得到对应的自变量系数。逻辑回归模型的运算速度快,收敛效果好,结果显性化程度高,拟合效果好,在多个领域都取得了很好的应用效果。.评分卡函数法对于一个电力用户的评分可以描述为:a()()()()()其中,a ();为模型参数;为 转换值;为二元变量(或 ),用于对变量的取值进行描述;为模型中存在变量的个数;为模型中对变量进行分类的组数;为基准值,根据实际情况来确定;为比率倍乘的分数变化值;为比率基础值。电力用户最终的分数应当维持在 分之间。标准评分卡算法的作用是能够将逻辑回归模型转化为评分卡形式,电力用户的最终分值就是各个变量所对应分值的总合。.电费回收风险预测模型在软件平台上,运用逻辑
8、回归算法来构建电力用户欠费风险预测模型。对于分类指标,依据 参数筛选得到预测力强的变量。对于连续性指标,分析变量的关系由关联系数矩阵进行描述,从中选取关联系数大于 .的指标后再根据 参数得到具体的指标体系架构,见表 。表 风险预测指标体系架构电费风险预测量化指标体系架构用户数据用电动作缴费动作基本信息用电信息电量信息电费信息违约信息缴费信息对风险预测指标体系架构中的全部特征指标进行最优分组运算,并实现证据权重转化的处理,构建逻辑回归模型,对模型的运算结果进行量化整定,得到评分卡结果。部分影响力强的指标见表 。电气技术与经济 研究与开发 表 风险预测指标体系中影响力较强的指标指标系数常数项 .供
9、电单位 .近半年电费回收时长期望 .电量方差 .电费回收时长方差 .缴费次数 .月上旬缴费次数 .月中旬缴费次数 .月下旬缴费次数 .电费平均值 .本期电量同比 .近半年月平均电量同比 .缴费渠道 .实例分析从模型的命中率、覆盖率和提升度三方面来描述模型的评估效果,如图所示。图模型评估效果随着命中率和提升度的逐步提高,覆盖率逐步降低。命中率和覆盖率交点位置,说明了基于营销成本前提下,能够实现收支平衡。在交点左侧位置命中率要高于覆盖率,即较少投入能够获得更好的收益;在交点右侧位置命中率要低于覆盖率,即要获得更好的收益需要更高的成本。结束语基于大数据技术实现数据的预处理以及模型的构建与分析,能够对
10、某些事情的全生命周期进行有效预测,并在风险管理方面给出具有针对性的管控措施。本文对逻辑回归模型进行了优化,将导入到模型的各项指标进行了细化处理,使之具有较强的适用性和覆盖性,能够针对不同职能的电力作业人员设计应用场景,对电力用户风险等级进行详细的、动态的评估。通过实例验证,本文所提出的基于大数据的电费回收风险预测方法,有效地展现了模型对于数据的高度整合能力,能够广泛运用于电费回收风险预测中,保证电费收缴工作的顺利推进,最大限度保证供电企业的经济利益。参考文献 赵洪,沈建忠,王俊,等基于客户画像与机器学习算法的电费回收风险预测模型及应用 微型电脑应用,():-涂莹,林士勇,欧阳柳,等基于市场细分
11、的逻辑回归模型在电费回收风险预测中的应用研究 电力需求侧管理,():-夏洪涛,施永益,凌卫家,等电费回收风险预测模型研究与实践 电力信息与通信技术,():-葛安同,谢晓慧,谭忠恒,等基于多尺度特征提取的电力客户欠费风险预测 电力工程技术,():-万义飞,覃宁,唐骞基于随机森林算法的用电客户欠费风险分析 江西电力职业技术学院学报,():-刘惠,麦展铭,赵海清居民客户电费回收风险的预测研究-基于随机森林算法 统计与咨询,():-李荣升,马成栋,王桥,等基于电力营销全过程电费风险问题的探讨 四川水泥,():-江明,邹云峰,徐超,等基于行业用电模式的企业电费逾期风险预测 电力需求侧管理,():-潘国兵,龚明波,贺民,等基于 模型融合的专变用户电费回收风险识别方法 电力自动化设备,():-谢林枫,钱立军,季聪,等基于长短期记忆网络算法的电费回收风险预警 电力工程技术,():-刘远哲基于多层次分析法和模糊综合评价法的供电企业电费回收风险影响因素分析 中小企业管理与科技,():-樊芮,卿曦 基于电力大数据的企业信用评价及电费回收风险防控 大众用电,():-(收稿日期:-)电气技术与经济 研究与开发