1、电子技术 第 52 卷 第 6 期(总第 559 期)2023 年 6 月 49Computer Engineering计算机工程数据,可从业务系统、互联网数据、客服系统等获取各类信息数据,由于供电企业客户数据具有保密性,不能批量获取客户数据,因此抽取业务系统部分客户数据,其余数据按照数据形态通过仿真数据代替。2.2 客户画像方法以K-means聚类算法为基础,开展电力客户聚类分析,对客户群体进行分类,得出客户画像。K-means聚类算法可以说是聚类算法中最为常见的,它是基于划分方法聚类的,原理是先初始化k个簇类中心,基于计算样本与中心点的距离归纳各簇类下的所属样本,迭代实现样本与其归属的簇类
2、中心的距离为最小的目标,而如何确定聚类出的簇数目k是尤为重要的。本文以输入特征值之间的欧几里得距离作为相似性的评判依据,结合“先验法”“手肘法”和“轮廓系数法”等方法4确定k值。(1)方法一:“先验法”计算。“先验法”较为简单,主要凭借业务知识确定k的取值。例如客户负荷情况可分为高负荷和低负荷两种类别,可以按照k=2做聚类验证。(2)方法二:“手肘法”计算。通过“手肘法”来计算评价聚类质量有效性的指标:误差平方作者简介:钟佳妤,长沙理工大学;研究方向:信息技术应用。收稿日期:2022-09-03;修回日期:2023-06-12。摘要:阐述客户个性化、体验化、智能化的服务需求,通过构建客户多层标
3、签体系,利用K-means聚类算法将不同客户划分成不同属性的簇,对客户进行分类画像,进一步分析客户类别特征,为电力系统精准服务提供有效的支撑手段。关键词:智能技术,K-means聚类,客户画像,标签。中图分类号:TP183,TP311.13文章编号:1000-0755(2023)06-0049-03文献引用格式:钟佳妤,樊绍胜.基于k-means聚类算法的电力客户背景分析J.电子技术,2023,52(06):49-51.基于K-means聚类算法的客户背景分析钟佳妤,樊绍胜(长沙理工大学,湖南 410114)Abstract This paper describes the personali
4、zed,experiential and intelligent service needs of customers.By building a customer multi-layer label system,it uses K-means clustering algorithm to divide different customers into clusters with different attributes,classify and portrait customers,further analyze the characteristics of customer categ
5、ories,and provide effective support for accurate service of power system.Index Terms intelligent technology,K-means clustering,customer portrait,tags.Analysis of Customer Background Based on K-means Clustering AlgorithmZHONG Jiayu,FAN Shaosheng(Changsha University of Technology,Hunan 410114,China.)0
6、 引言在如今的“大数据”时代,在每个领域、行业和业务里数据已无处不在,决定着业务发展的内在价值。在竞争日趋激烈的市场环境下,全业务的竞争优劣体现在对客户的认知差异上,对客户需求的识别、对客户界面的控制、对客户行为的掌握成为电力行业发展面临的新挑战和新机遇1。当前,客户能效诊断不够准确、客户服务缺乏精准性、客户需求难以掌握,电力企业迫切需要转变营销模式,以数据驱动,构建电力客户画像,实施精准营销,满足客户降本增效诉求,切实提升客户服务体验2。1 客户标签体系 考虑供电公司实际工作需求,以研究多目标优化的客户主动服务策略及服务支撑技术为目的,建立客户画像多层标签体系3。本文根据计划应用场景及供电公
7、司的实际需求,将从客户的基本属性、电力属性、用电行为、交互行为和交费行为五个维度来构建标签体系。2 客户画像技术 2.1 客户画像分析数据来源基于电力大数据的客户画像业务所需的数据,包括个人信息、营业数据、计量数据和用电能耗50 电子技术 第 52 卷 第 6 期(总第 559 期)2023 年 6 月Computer Engineering计算机工程和(SSE),计算方法见式(1)。(1)式中,i为聚类结果中的第i类簇;k为聚类出的簇数目;Ci为第i类簇的所有数据集合;P为Ci中的任一数据元素;mi为第i类簇的数据中心。(3)方法三:“平均轮廓系数法”计算。利用“平均轮廓系数法”计算评价聚类
8、质量有效性的指标:平均轮廓系数(SC),计算公式见式(2)和式(3)。(2)(3)式中,a(i)为样本i到同簇内其他样本点的平均距离;b(i)样本i到其他簇所有点的平均距离;S(i)为样本i的轮廓系数;m为样本总数;SC为整个样本集的轮廓系数,取值范围为-1,1,其值越接近1表明聚类效果越好。Kmeans算法实现过程如下。(1)步骤一:对各项数据进行标准化处理及异常点过滤。在上述式中各维数据所具备的物理意义存在差异,且获得的数据具有一定异常,在经过聚类分析前需要对数据进行清洗,对该式中的各项数据信息采用Z-Score方法开展标准化处理,见式(4):(4)(2)步骤二:随机选择 K 个样本点作为
9、初始聚类中心,见式(5)。a=a1,a2,ak (5)(3)步骤三:通过计算每个样本点到 K 个聚类中心的距离,实现每个样本点划分到距离最近的聚类中心所在簇中;(4)步骤四:基于步骤二中划分簇的结果,将每个簇中所有样本的均值作为该簇新的聚类中心(即属于该类的所有样本的质心),见式(6);(6)(5)步骤五:一直重复步骤二、步骤三,直到k个聚类中心变化范围在给定的阈值范围之内,则算法停止。(6)步骤六:研究客户类别;结合欧几里得距离公式,见式(7),对各客户类别加以分析。(7)结合电力客户标签体系,对各维度下的标签属性进行分类划分,且按照客观指标优于主观指标的原则,以纵向顺序的方式类别编排。3
10、算例分析基于现有实验数据为某100个客户一年内的缴费记录,其中包括客户编号(CUST_C)、缴费时间(PAY_T)、抄核收时间(SET_T)、缴费金额(PAY_A)、用电量(ELE_C)、缴费方式(PAY_M)以及欠费记录(LACK_R)等,具体数据见表2。基于以上数据,从缴费方式偏好维度给电力客户打上对应的标签,实现标签化操作。表1所示为客户130*20的缴费记录。3.1 数据预处理通过蒙特卡洛模拟的方法来模拟普通客户的用电数据,以此扩展原有用电数据,将原有的99个客户数据扩展为1 000个。为了能够得到有用的信息和便于算法处理,划分所有电力客户缴费记录到12个月,其中包括用电量数值、预缴效
11、率、每月预缴金额、欠费记录等。通过式(8)把原始数据进行归一化处理。(8)其中,x为数据初始值,为总体平均值,为总体标准差。3.2 聚类分析经过PCA降维后,从缴费方式偏好维度,采用K-means对PCA前三维主成分聚类得到如图1的客户聚类结果。在缴费方式偏好标签属性下,通过K-means算法及PCA 降维后,通过“手肘法”计算得到k=3,如图2。将客户分为三类客户,最终得到三类簇A、B、C,可以看出三类客户之间差异均较大,客户数较为平均,如图2。其中客户的类别可划分为微表1 客户130*20的缴费记录电子技术 第 52 卷 第 6 期(总第 559 期)2023 年 6 月 51Comput
12、er Engineering计算机工程信交费偏好、支付宝交费偏好、银行交费偏好三类客户,由图可见第一类客户定义为微信交费偏好客户;第二类客户定义为支付宝交费偏好客户;第三类客户定义为银行交费偏好客户。4 结语通过K-means聚类算法,通过不同电力客户特征将电力客户划分到不同类别,从而分析出各群体簇中数据对象属性,实现对不同类别的标签化操作,进而建立电力客户画像。本研究为供电企业提质增效和供电服务水平提供了有效支撑。目前电力客户画像有待完善,标签体系中部分维度可进一步迭代更新,同时可设定每个标签的权重,形成对电力客户服务风险的综合评分评级,本文目前还未对以上方面进行深入研究,后续可进一步探索和
13、研究。参考文献1 刘彪,刘金长.基于用户画像分析预测电费敏感型客户的建模实践C.中国电机工程学会电力信息化专业委员会.2017电力行业信息化年会论文集,人民邮电出版社,2017:237-241.2 高晋峰,成慧娟,朱银龙等.电力客户画像构建及应用场景研究J.微型电脑应用,2021,37(11):177-180.3 柯方圆,钟永颉,胡瑞瑞.基于客户画像的供电营业厅精准服务探索J.电力需求侧管理,2016,18(S1):109-110.4 宋美琦,陈烨,张瑞.用户画像研究述评J.情报科学,2019,37(04):171-177.5 朱石剑.电力系统综合能效评估及系统研发D.天津:天津大学,2019
14、.6 李锐.用户画像研究述评J.科技与创新,2021(23):4-9+12.7 朱州,吴漾.基于改进K-means聚类算法在电力客户价值分群的应用J.计算机与数字工程,2017,45(06):1049-1054+1149.8 翟东海,鱼江,高飞等.最大距离法选取初始簇中心的K-means文本聚类算法的研究J.计算机应用研究,2014,31(03):713-715+719.9 张世博.基于优化初始中心点的K-means文本聚类算法J.计算机与数字工程,2011,39(10):30-31.10 李双虎,王铁洪.Kmeans聚类分析算法中一个新的确定聚类个数有效性的指标J.河北省科学院学报,2003(04):199-202.图1 PCA 降维后客户聚类图图2 SSE随不同聚类簇数k的变化曲线