1、计算机与通信技术Computer and Communication Technology自动化技术与应用2023 年第 42 卷第 6 期Techniques ofAutomation&Applications能源大数据中心数据脱敏关键技术研究*潘建宏1,王 磊2,张俊茹3,樊家树4,董爱迪4(1.国网吉林省电力有限公司,吉林 长春 130000;2.国网辽源供电公司,吉林 辽源 136200;3.国网白城供电公司,吉林 白城 137000;4.国网吉林省电力有限公司信息通信公司,吉林 长春 130000)摘要:针对电网环境安全性较差引起的敏感数据易泄露、窃取等问题,提出一种能源大数据中心的
2、数据脱敏关键技术。利用敏感数据样本的特征及属性,赋予所有样本同等支持度阈值,并计算数据间的隶属关系,通过关系参数对全部数据集实现敏感度划分,完成脱敏区间的建立。在此区间内计算同一背景属性下敏感数据与正常数据的重构概率,实行重构转换,完成数据的脱敏。实验结果证明技术对中心大数据脱敏的精准度较高、速度较快,且整体耗用较少。关键词:能源大数据中心;数据脱敏技术;敏感数据处理中图分类号:TP309.2文献标识码:A文章编号:1003-7241(2023)06-0094-04Research on the Key Technology of Data Desensitizationin the Ener
3、gy Big Data CenterPAN Jian-hong1,WANG Lei2,ZHANG Jun-ru3,FAN Jia-shu4,DONG Ai-di4(1.State Grid Jilin Electric Power Company Limited,Changchun 130000 China;2.State Grid Liaoyuan Power Supply Company,Liaoyuan 136200 China;3.State Grid Baicheng Power Supply Company,Baicheng 137000 China;4.China of Limi
4、ted Company of Jilin Province Power Communication Company,Changchun 130000 China)Abstract:In view of the problems of sensitive data leakage and stealing caused by the poor security of power grid environment,a key tech-nology of data desensitization in big data center of energy is proposed.The sensit
5、ivity of all data sets is divided by the relation-ship parameters,and the desensitization interval is established.In this interval,the reconstruction probability of sensitive data andnormal data is calculated under the same background attribute,and the reconstruction transformation is carried out to
6、 completethe desensitization of data.The experimental results show that the technology has high precision and speed for desensitization ofcentral big data,and the overall consumption is less.Keywords:energy big data center;data desensitization technology;sensitive data treatment*基金项目:国家电网有限公司总部科技项目“
7、能源大数据中心建设关键技术及标准体系研究”资助(5700-202190175A-0-0-00)收稿日期:2021-07-12DOI:10.20033/j.1003-7241.(2023)06-0094-04.1引言随着大数据和计算机时代不断进步和发展,信息数据已成为人们生活和工业领域不可缺少的一部分,为商业及各行业创造了巨大的价值。但在享受数据为生活带来便利的同时,也需要面对其产生的安全隐患。例如,网络环境中信息隐私问题,由于数据传输环境安全性较差的问题,导致大量恶意程序或软件对个人的隐私信息非法的窃取和篡改,使得敏感的数据信息发生严重的泄露。为了保证信息安全,需要一种数据脱敏技术来帮助在各个
8、环境中隐私信息的保护,降低传输风险、提高数据的安全性。为此,针对数据脱敏进行了很多的研究。基于数据变换规则的离散型数据保护方法,通过赋予所有数据统一权重数值的方式,剔除敏感型数据来实现保护1。该方法目的性较强易于操作,但是容易改变数据间的相似性,会造成聚类误差,从而导致脱敏精度降低、影响数据脱敏效果。数据属性及特征建立相应隐私划分矩阵,实现隐私数据与正常数据的有效分离2。该方法整体划分效率较高,但由于没有进行原始数据的预处理操作,导致后续矩阵内异常噪声数据的影响,导致误差增大、降低准确性。根据上述方法中存在的不足,提出一种能源大数据中心的数据脱敏关键技术。该技术可有效实现敏感数据94自动化技术
9、与应用2023 年第 42 卷第 6 期计算机与通信技术Computer and Communication TechnologyTechniques ofAutomation&Applications保护,通过相应数据预处理和脱敏区间划分,保证其关键技术可以有效实施,并且还可提高整体脱敏速度,降低一般耗用,改善因能源中心数据基数过大、种类较为复杂、目标范围过广而导致的技术难点。2能源大数据中心数据脱敏关键技术分析2.1敏感数据预处理为保证能源大数据中心环境中,可以实现有效的数据脱敏,需要先对所有数据预处理操作,并设置包含各类属性信息的数据集以及计算每个数据集下属性信息的转移变换概率,确保所有
10、信息符合脱敏处理的硬性要求,提高隐私信息保护的准确性。(1)对数据集中各类属性支持度计数。首先,已知初始定义数据集A的表现形式为A1,A2,Ak,记录样本数据集为T,其属性数据集为X,二者数据集的隶属关系为TX、T。用yi代表数据属性取值,则此时定义数据集T中对应的属性取值为y1,y2,yi,计算所有属性取值支持系数。(2)建立敏感类属性信息的数据转换概率矩阵。定义数据集A中共有n个不同类型的属性信息,其中,关于敏感信息类的属性为a,取值为ag(1gn),此时数据集中关于敏感类数据的概率转移矩阵pA为:(1)式中,代表敏感类信息属性值从ak转变为al的发生概率。基于上述过程,可按照各类数据属性
11、分裂成两个不同的信息区间(a1,ag)和(ag+1,an),当属性有两种不同取值时,可以汇总计算数据集A的敏感属性矩阵为:(2)式中,rk(1kn)表示属性值ak在初始信息数据中的状态分布概率,当rk=1时,可以推算出在该初始数据矩阵内每行敏感数据的计数相加都等于1,并且整体呈现一种不可逆性,可根据上述过程依次计算出数据集A中各个类型数据的概率矩阵。通过原始数据转换以及概率计算,得出对应敏感属性数据的概率分布矩阵,帮助后续脱敏区间的划分和脱敏技术的实现。2.2脱敏区间划分为了保证脱敏技术可以实现,并提高脱敏精度以及工作效率,确保处理过程中不会出现异常数据的影响,需要建立并划分相应脱敏区间,保证
12、技术的顺利进行。根据原始信息特征获取关于敏感信息的属性背景数据,属性数据是指符合敏感特征的独立信息,根据独立性中影响因子构成符合脱敏技术要求的数据矩阵,该矩阵可很好地匹配敏感数据。首先,设立属性背景3数据为l,用k表示个人信息,通过在同一背景属性l下对随机的个人信息进行具体描述,此时可取得相应描述阈值,并计算所有阈值间的差异性,最终得出影响因子矩阵4表示为nl,其中n表示常数值,可得到具体的脱敏因子矩阵为:(3)式中,lk表示在各背景属性下数据影响程度阈值。利用上述矩阵计算第n个敏感信息的影响:(4)根据不同数据信息分别对应建立相应的数据脱敏区间,帮助脱敏技术的实施。2.3数据脱敏关键技术实现
13、经过上述脱敏区间划分后,可将所有样本数据集中的信息数据从1号开始形成连续整数,每个单一整数都代表每个对应属性下不同信息含义。假设Xi为样本数据集中任意属性Ai的脱敏区间映射,IDom(Ai)表示属性Ai实行连续整数的取值域5,Yi表示数据集Xi在转换后的实际数值,并有:(5)式中,si表示敏感数据属性特征集si的补集,并且si满足区域0-1的状态分布,当敏感数据特征集si的概率分布取值为P时,此时的区域分布为1-P状态。当经过相应转换后实际数值时YiIDom(Ai),此时Yi=1,表达关系式:(6)设原始的样本数据集Xi含有n个位置区间数值,可根据上述公式(6)计算取值为P时概率数值,保证初始
14、值不变,将状态分布1-P转换为其他取值。再假设数据集Xi在任意分布区间内的概率数值相等,即:(7)将在实际数据集Xi中选择第i时刻下的支持度为si,设ri为数据集Xi经过不定变换后的实际数值。首先将数值取为i=1可得到:(8)95计算机与通信技术Computer and Communication Technology自动化技术与应用2023 年第 42 卷第 6 期Techniques ofAutomation&Applications式中,p表示数据集转换阈值6。通过数据集的不定变换重构实际数据集中所有数据,使其排列组合可得到以下简便形式的公式为:(9)经简化及计算可得到:(10)式中,R
15、表示数据敏感度阈值。在数据库中所有关于属性信息数据支持度都等同,并且数据间的重构率较小,就可取所有数据支持度的平均s0值数据重构公式,得到:(11)取公式中不同的p值和s0值获取数据集R1(p)的变化,如图1所示。图1R1(p)的数据重构概率由图1可指,经过不同支持度si下数据敏感度阈值R变化曲线差距较为明显。在数据重构概率值最高时曲线处于边界位置,并且在取值p=0.5最低,这种变化不规律,所以数据的重构概率较低。当得到的全部曲线以p=0.5数值对称,说明在过程取值时数值p和数值1-p得出的敏感数据重构结果相同。数据集Xi是由n个不同区间值共同组成,且n是从1开始的正整数,对于数据集Xi中每一
16、位数据存在不同取值。以Xi=1的情况为例,可得到关于敏感数据阈值的重构概率7公式如下:(12)式中,j表示隐私度数值,其数值与重构概率呈互补关系。因此可得到关于隐私数据概率的计算公式,表示为:(13)现将取值为n=4,在此取值下可得到敏感数据的有效重构概率,保证数据概率值的均匀分布,此时关于数据敏感度R1(p)的函数曲线,如图2所示。图2n=4时敏感度曲线分布当敏感度数值为P50%时,此时敏感数据的保持情况最为优异,当敏感度随着支持度上升而下降,当si=0.5时,基于所有数值的敏感度曲线达到了最低限度,并且当区间取值为不同概率时,敏感度可以持续保持,所以根据敏感度的分布率可得到以下关系式:(14)式中,ai代表重构数值8的加权值,当时敏感度呈现随机分布时,敏感数值支持度较高,完全满足脱敏技术需求,可有效实现大数据能源环境中的数据脱敏,保证脱敏精准度。3实验分析3.1实验方案为了验证能源大数据中心数据脱敏技术性能,并保证实验数据的精准性以及合理性,实验比较联盟区块链隐私数据脱敏方法1、多维数值型敏感属性数据脱敏技术以及本文的方法2,在实际Spark大数据平台展开数据脱敏实验,并进行详细的