ImageVerifierCode 换一换
格式:PDF , 页数:4 ,大小:1.73MB ,
资源ID:2570265      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/2570265.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(能源大数据中心数据脱敏关键技术研究_潘建宏.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

能源大数据中心数据脱敏关键技术研究_潘建宏.pdf

1、计算机与通信技术Computer and Communication Technology自动化技术与应用2023 年第 42 卷第 6 期Techniques ofAutomation&Applications能源大数据中心数据脱敏关键技术研究*潘建宏1,王 磊2,张俊茹3,樊家树4,董爱迪4(1.国网吉林省电力有限公司,吉林 长春 130000;2.国网辽源供电公司,吉林 辽源 136200;3.国网白城供电公司,吉林 白城 137000;4.国网吉林省电力有限公司信息通信公司,吉林 长春 130000)摘要:针对电网环境安全性较差引起的敏感数据易泄露、窃取等问题,提出一种能源大数据中心的

2、数据脱敏关键技术。利用敏感数据样本的特征及属性,赋予所有样本同等支持度阈值,并计算数据间的隶属关系,通过关系参数对全部数据集实现敏感度划分,完成脱敏区间的建立。在此区间内计算同一背景属性下敏感数据与正常数据的重构概率,实行重构转换,完成数据的脱敏。实验结果证明技术对中心大数据脱敏的精准度较高、速度较快,且整体耗用较少。关键词:能源大数据中心;数据脱敏技术;敏感数据处理中图分类号:TP309.2文献标识码:A文章编号:1003-7241(2023)06-0094-04Research on the Key Technology of Data Desensitizationin the Ener

3、gy Big Data CenterPAN Jian-hong1,WANG Lei2,ZHANG Jun-ru3,FAN Jia-shu4,DONG Ai-di4(1.State Grid Jilin Electric Power Company Limited,Changchun 130000 China;2.State Grid Liaoyuan Power Supply Company,Liaoyuan 136200 China;3.State Grid Baicheng Power Supply Company,Baicheng 137000 China;4.China of Limi

4、ted Company of Jilin Province Power Communication Company,Changchun 130000 China)Abstract:In view of the problems of sensitive data leakage and stealing caused by the poor security of power grid environment,a key tech-nology of data desensitization in big data center of energy is proposed.The sensit

5、ivity of all data sets is divided by the relation-ship parameters,and the desensitization interval is established.In this interval,the reconstruction probability of sensitive data andnormal data is calculated under the same background attribute,and the reconstruction transformation is carried out to

6、 completethe desensitization of data.The experimental results show that the technology has high precision and speed for desensitization ofcentral big data,and the overall consumption is less.Keywords:energy big data center;data desensitization technology;sensitive data treatment*基金项目:国家电网有限公司总部科技项目“

7、能源大数据中心建设关键技术及标准体系研究”资助(5700-202190175A-0-0-00)收稿日期:2021-07-12DOI:10.20033/j.1003-7241.(2023)06-0094-04.1引言随着大数据和计算机时代不断进步和发展,信息数据已成为人们生活和工业领域不可缺少的一部分,为商业及各行业创造了巨大的价值。但在享受数据为生活带来便利的同时,也需要面对其产生的安全隐患。例如,网络环境中信息隐私问题,由于数据传输环境安全性较差的问题,导致大量恶意程序或软件对个人的隐私信息非法的窃取和篡改,使得敏感的数据信息发生严重的泄露。为了保证信息安全,需要一种数据脱敏技术来帮助在各个

8、环境中隐私信息的保护,降低传输风险、提高数据的安全性。为此,针对数据脱敏进行了很多的研究。基于数据变换规则的离散型数据保护方法,通过赋予所有数据统一权重数值的方式,剔除敏感型数据来实现保护1。该方法目的性较强易于操作,但是容易改变数据间的相似性,会造成聚类误差,从而导致脱敏精度降低、影响数据脱敏效果。数据属性及特征建立相应隐私划分矩阵,实现隐私数据与正常数据的有效分离2。该方法整体划分效率较高,但由于没有进行原始数据的预处理操作,导致后续矩阵内异常噪声数据的影响,导致误差增大、降低准确性。根据上述方法中存在的不足,提出一种能源大数据中心的数据脱敏关键技术。该技术可有效实现敏感数据94自动化技术

9、与应用2023 年第 42 卷第 6 期计算机与通信技术Computer and Communication TechnologyTechniques ofAutomation&Applications保护,通过相应数据预处理和脱敏区间划分,保证其关键技术可以有效实施,并且还可提高整体脱敏速度,降低一般耗用,改善因能源中心数据基数过大、种类较为复杂、目标范围过广而导致的技术难点。2能源大数据中心数据脱敏关键技术分析2.1敏感数据预处理为保证能源大数据中心环境中,可以实现有效的数据脱敏,需要先对所有数据预处理操作,并设置包含各类属性信息的数据集以及计算每个数据集下属性信息的转移变换概率,确保所有

10、信息符合脱敏处理的硬性要求,提高隐私信息保护的准确性。(1)对数据集中各类属性支持度计数。首先,已知初始定义数据集A的表现形式为A1,A2,Ak,记录样本数据集为T,其属性数据集为X,二者数据集的隶属关系为TX、T。用yi代表数据属性取值,则此时定义数据集T中对应的属性取值为y1,y2,yi,计算所有属性取值支持系数。(2)建立敏感类属性信息的数据转换概率矩阵。定义数据集A中共有n个不同类型的属性信息,其中,关于敏感信息类的属性为a,取值为ag(1gn),此时数据集中关于敏感类数据的概率转移矩阵pA为:(1)式中,代表敏感类信息属性值从ak转变为al的发生概率。基于上述过程,可按照各类数据属性

11、分裂成两个不同的信息区间(a1,ag)和(ag+1,an),当属性有两种不同取值时,可以汇总计算数据集A的敏感属性矩阵为:(2)式中,rk(1kn)表示属性值ak在初始信息数据中的状态分布概率,当rk=1时,可以推算出在该初始数据矩阵内每行敏感数据的计数相加都等于1,并且整体呈现一种不可逆性,可根据上述过程依次计算出数据集A中各个类型数据的概率矩阵。通过原始数据转换以及概率计算,得出对应敏感属性数据的概率分布矩阵,帮助后续脱敏区间的划分和脱敏技术的实现。2.2脱敏区间划分为了保证脱敏技术可以实现,并提高脱敏精度以及工作效率,确保处理过程中不会出现异常数据的影响,需要建立并划分相应脱敏区间,保证

12、技术的顺利进行。根据原始信息特征获取关于敏感信息的属性背景数据,属性数据是指符合敏感特征的独立信息,根据独立性中影响因子构成符合脱敏技术要求的数据矩阵,该矩阵可很好地匹配敏感数据。首先,设立属性背景3数据为l,用k表示个人信息,通过在同一背景属性l下对随机的个人信息进行具体描述,此时可取得相应描述阈值,并计算所有阈值间的差异性,最终得出影响因子矩阵4表示为nl,其中n表示常数值,可得到具体的脱敏因子矩阵为:(3)式中,lk表示在各背景属性下数据影响程度阈值。利用上述矩阵计算第n个敏感信息的影响:(4)根据不同数据信息分别对应建立相应的数据脱敏区间,帮助脱敏技术的实施。2.3数据脱敏关键技术实现

13、经过上述脱敏区间划分后,可将所有样本数据集中的信息数据从1号开始形成连续整数,每个单一整数都代表每个对应属性下不同信息含义。假设Xi为样本数据集中任意属性Ai的脱敏区间映射,IDom(Ai)表示属性Ai实行连续整数的取值域5,Yi表示数据集Xi在转换后的实际数值,并有:(5)式中,si表示敏感数据属性特征集si的补集,并且si满足区域0-1的状态分布,当敏感数据特征集si的概率分布取值为P时,此时的区域分布为1-P状态。当经过相应转换后实际数值时YiIDom(Ai),此时Yi=1,表达关系式:(6)设原始的样本数据集Xi含有n个位置区间数值,可根据上述公式(6)计算取值为P时概率数值,保证初始

14、值不变,将状态分布1-P转换为其他取值。再假设数据集Xi在任意分布区间内的概率数值相等,即:(7)将在实际数据集Xi中选择第i时刻下的支持度为si,设ri为数据集Xi经过不定变换后的实际数值。首先将数值取为i=1可得到:(8)95计算机与通信技术Computer and Communication Technology自动化技术与应用2023 年第 42 卷第 6 期Techniques ofAutomation&Applications式中,p表示数据集转换阈值6。通过数据集的不定变换重构实际数据集中所有数据,使其排列组合可得到以下简便形式的公式为:(9)经简化及计算可得到:(10)式中,R

15、表示数据敏感度阈值。在数据库中所有关于属性信息数据支持度都等同,并且数据间的重构率较小,就可取所有数据支持度的平均s0值数据重构公式,得到:(11)取公式中不同的p值和s0值获取数据集R1(p)的变化,如图1所示。图1R1(p)的数据重构概率由图1可指,经过不同支持度si下数据敏感度阈值R变化曲线差距较为明显。在数据重构概率值最高时曲线处于边界位置,并且在取值p=0.5最低,这种变化不规律,所以数据的重构概率较低。当得到的全部曲线以p=0.5数值对称,说明在过程取值时数值p和数值1-p得出的敏感数据重构结果相同。数据集Xi是由n个不同区间值共同组成,且n是从1开始的正整数,对于数据集Xi中每一

16、位数据存在不同取值。以Xi=1的情况为例,可得到关于敏感数据阈值的重构概率7公式如下:(12)式中,j表示隐私度数值,其数值与重构概率呈互补关系。因此可得到关于隐私数据概率的计算公式,表示为:(13)现将取值为n=4,在此取值下可得到敏感数据的有效重构概率,保证数据概率值的均匀分布,此时关于数据敏感度R1(p)的函数曲线,如图2所示。图2n=4时敏感度曲线分布当敏感度数值为P50%时,此时敏感数据的保持情况最为优异,当敏感度随着支持度上升而下降,当si=0.5时,基于所有数值的敏感度曲线达到了最低限度,并且当区间取值为不同概率时,敏感度可以持续保持,所以根据敏感度的分布率可得到以下关系式:(14)式中,ai代表重构数值8的加权值,当时敏感度呈现随机分布时,敏感数值支持度较高,完全满足脱敏技术需求,可有效实现大数据能源环境中的数据脱敏,保证脱敏精准度。3实验分析3.1实验方案为了验证能源大数据中心数据脱敏技术性能,并保证实验数据的精准性以及合理性,实验比较联盟区块链隐私数据脱敏方法1、多维数值型敏感属性数据脱敏技术以及本文的方法2,在实际Spark大数据平台展开数据脱敏实验,并进行详细的

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2