1、Journalof JilinIntormationScienceEditionniverslMay20232023年5月Vol.41No.3吉林大学(信息科学版)第3期第41卷文章编号:16 7 1-58 96(2 0 2 3)0 3-0 559-0 7基于边缘计算的非结构化大数据动态安全存储算法韦蕊(西安培华学院智能科学与信息工程学院,西安7 10 12 5)摘要:针对非结构化大数据边缘安全性较差,存储效果受限的问题,提出基于边缘计算的非结构化大数据动态安全存储算法。有效分析和识别非结构化大数据,利用构建的数据敏感级别识别模型确立非结构化大数据敏感度等级并加密。基于边缘计算及云计算,建立云
2、边协同架构,利用该架构编写的分布式压缩感知-同时正交匹配追踪(DCS-SOMP:D i s t r i b u t e d Co mp r e s s e d Se n s i n g-Si mu l t a n e o u s O r t h o g o n a l M a t c h i n g Pu r s u i t)算法对加密数据进行压缩采集,以此降低数据存储量,最终将非结构化加密数据上传至云边协同框架各个边缘,实现非结构化大数据动态安全存储。经存储量、元数据占比、加密耗时和带宽消耗测试实验,结果表明该算法鲁棒性较高,能保证实际应用性。关键词:边缘计算;数据存储;数据安全;数据加密中
3、图分类号:TP391文献标志码:ADynamic and Secure Storage Algorithm for UnstructuredBig Data Based on Edge ComputingWEI Rui(School of Intelligent Science and Information Engineering,Xian Peihua University,Xian 710125,China)Abstract:Aiming at the problems of poor edge security and limited storage effect of unstruc
4、tured big data,adynamic secure storage algorithm of unstructured big data based on edge computing is proposed.Theunstructured big data is effectively analyzed and identified.The constructed data sensitivity level recognitionmodel is used to establish and encrypt the sensitivity of unstructured big d
5、ata.Based on edge computing andcloud computing,a cloud edge collaboration architecture is established,and the DCS-SOMP(DistributedCompressed Sensing Simultaneous Orthogonal Matching Pursuit)algorithm written by the architecture is used tocompress and collect encrypted data,so as to reduce data stora
6、ge.Finally,the unstructured encrypted data isuploaded to each edge of the cloud side collaboration framework to realize the dynamic and secure storage ofunstructured big data.Through experimental comparison,it is found that the robustness of storage test,metadataproportion test,encryption time-consu
7、ming test and bandwidth consumption is high,which ensures the practicalapplication.Key words:edge computing;unstructured big data;dynamic secure storage;data encryption0引言由于目前数据存储功能不够完善,使数据丢失问题频发 1-3,为此,人们有必要对非结构化大数据的动态安全存储算法进行详细研究。龚明明等 4 提出地震信息网络数据的动态存储方法研究,优先分析了收稿日期:2 0 2 2-0 5-17基金项目:陕西省教育科学十四五”规
8、划2 0 2 1年度基金资助项目(SCH21Y0345)作者简介:韦蕊(198 2 一),女,西安人,西安培华学院副教授,主要从事计算机应用、大数据研究,(Tel)86-18966901995(E-ma i l)。560第41卷吉林大学学报(信息科学版)系统内部的数据信息,并设计了存储服务器,将其与网络信息负载情况相结合,达到平衡信息负载的目的,通过获取数据性能指标的比例值,得出数据的综合性能参数,结合上述两种指标,得到最优存储服务器,利用该服务器完成对数据的存储。但该方法获取的指标存在误差及数据存储量多的问题。高健等 5 提出基于预分区策略的装备数据分布式存储方法,首先对数据快速存储影响因子
9、开展了详细分析,根据分析结果提出数据存储算法,利用该算法均衡负载数据,使其能快速的存储到数据库中,最终根据存储性能,对数据开展负载均衡评估,从而实现数据存储。但该方法的分析结果不够完善,存在带宽消耗高的问题。王鹤等 6 提出基于分布式压缩感知和边缘计算的配电网电能质量数据压缩存储方法,通过构建的边缘协同框架压缩感知数据,基于压缩结果将其输人到框架开展详细的分析,从而实现对数据的压缩存储,最终根据数据节点的相关性,完成对数据的动态分区,从而实现数据存储。但该方法的压缩结果不够稳定,存在元数据占比大的问题为避免上述方法中存在的缺陷,笔者提出基于边缘计算的非结构化大数据动态安全存储算法。1非结构化大
10、数据敏感级别确立1.1非结构化大数据动态安全分析由于非结构化大数据中存在大量的敏感数据,其对安全存储性能有很大影响,所以数据在存储时,需要建立安全存储框架对其进行有效分析和识别,并利用数据库建立非结构化大数据节点,根据数据库节点划分非结构化大数据的类型及其敏感度,便于对不同的数据节点类型分类存储。构建的非结构化大数据安全框架如图1所示非结构化大数据非结构化大数据节点接口调度算法01010101数据分类0202020203030303非结构化大数据敏感度级别评估器XML文本电子邮件其他数据安全加密图1非结构化大数据安全框架示意图Fig.1Schematic diagram of unstruct
11、ured big data security framework1.2非结构化大数据敏感度等级确立如果单纯利用KerBeros协议与设立的数据访问控制表结合而成的访问授权方式对数据访问,仅依据数据的敏感度,利用人工识别方法对敏感数据标识,容易出现数据泄露的问题。由于有些非结构化大数据属于静态,所以访问这类大数据时需要设计一个大数据敏感等级评估器,利用该评估对数据敏感等级识别7 构建的数据敏感级别识别模型如下:M,=U,+D,R,Rij+Cu.Di+dRij,Rm.(1)n.n7其中M,为识别模型,U,为用户,D;为非结构化大数据数据集,R,为数据集合,R,为R;的边,Cui,D:为非结构化大数
12、据受到访问的次数,dRij,Rm,为R的具体数据项边。利用该模型中的信息摘变化对非结构化大数据进行敏感度识别,从而处理非结构化大数据的量化度量问题利用信息获取的非结构化大数据敏感度,定义如下:nC(x;)H(x;)-H(x;),(2)i=1其中C(x;)为非结构化大数据的数据集敏感度,ZH(x,)为全部信息熵,H(x,)为非结构化大数据数据集i=1的值。通过方程(2)得出非结构化大数据信息熵为nH(x)=-Zp(x.)+log xi,(3)i=1集,韦蕊:基于边缘计算的非结构化大数据动态安全存储算法第3 期561其中p(x,)为数据集的概率函数。非结构化大数据的使用频率、连接性及其质量都是影响
13、p(x;)的主要因素。当数据集中的数据项使用频率较高时,非结构化数据的敏感程度就会随之提升;而连接性越高时,非结构化数据的敏感度也会越高,大数据的质量遭到损坏或丢失,损失越大敏感度越高。基于上述分析,获取非结构化大数据的使用率方程为mCui,DimP(x)Cui.D(4)i=1j=li=lmCu.,p为全部数据集,Cu.n为非结构化大数据的访问次数。m其中=1非结构化大数据的连接度概率函数计算方程,如下:j,m,n=a,b,cij,m,n=d,a,b,cp(x)(5)LR.j,m,n=1,1,1i,j,m,n=i,1,1,1j,m,n=a,b,ci,j,m,n=d,a,b,c其中dRi.j,R
14、m.n为非结构化数据连接点中的边缘数量,dRij,Rm.n为与数据集合R,相连接的j,m,n=1,1,1i,j,m,n=i,1,1,1边数。非结构化大数据的数据质量函数,如下:np(x)=(Zco(R,)/S.)/Z(Zco(R,)/S,),(6)其中co(R)为准确数量,S,为非结构化大数据数据项的总数,Zco(R)/S,为正确率,p(x )为数据co(R,)/S.)为数据的总正确率。=1将上述获取的非结构化大数据使用率、连接度及数据质量函数之积用作组合熵,得到:H(x,)=H(x;)H(x)H(x),(7)其中H()为使用率,H(x;)为连接度,H(x)为数据质量。将方程(4)方程(6)引
15、人方程(3)中,以此取得各个数据集的概率函数,定义为nH(xi)=-Z p(x)+log xii=1nH(x)=-Zp(x)+log x(8)nLH(x)=-Zp(x)+logx。将上述方程代人式(7)中,得到:nnnH(x,)=-Zp(x:)+logx:Zp(x)+logxZp(x)+logx。(9)计算方程(9),根据计算结果设定敏感度范围,即C。将非结构化大数据定义为3个级别,当敏感度C(x;)与级别相近时,说明此类数据受到保护,且其敏感级别代码为q,属于敏感度级别较高的大数据,需要加强对此类级别数据的安全性;C(x;)与级别b相近,其敏感级别设置为qb,此类级别数据的安全性可低于q;对
16、非结构化大数据访问及存储的环境风险安全级别要求较低的大数据,则设定为c,敏感级别为qc,此类大数据的安全等级仅需用户身份验证即可1.3非结构化大数据加密通过对非结构化大数据敏感度级别的确立,分化不同级别数据所设立的不同安全等级,根据分化结果对其进行加密处理 8 ,以此保障数据的动态安全性。采用密文策略属性基加密(CP-ABE:Ci p h e r t e x t Po l i c y A t t r i b u t e Ba s e d En c r y p t i o n)算法加密不同敏感类型的非结构化大数据,达到增强大数据存储安全性的目的。将数据属性理念融人到加密算法中,使用户对数据访问时
17、能自主选择需要查询的数据,具体存储流程如下:台与达562第41卷吉林大学学学报(信息科学版)1)依据划分的不同类型敏感数据,分别对此类数据设定安全参数,并用作输人数据,从中得出主密钥,即NK,而数据公开参数则为PK;2)将NK与PK用作输入,根据非结构化大数据划分结果,在数据明文Y的基础上得出非结构化大数据密文,即C(Y);3)将非结构化大数据数据集合输人,主要包含H(x)、H(x)、H(x ),再次输人NK,得出数据私钥,即UK;4)分别输人C(Y)、U K,解密数据密文C(Y),得到非结构化大数据数据明文Y。通过上述4个步骤,完成对不同类型非结构化大数据的加密,解决了目前数据动态安全性差的
18、问题,为后续数据的动态安全存储奠定了重要基础。2基于边缘计算的数据动态安全存储2.1构建边缘计算与云端服务器结合框架缘计算与云计算相比自身与网络设备更接近,有可降低网络延迟、减少存储带宽的作用。而云平缘平台的结合,会将系统性能最大化,建立的云边协同框架如图2 所示。云端1存储各个节点构建云端完备字典阅值分区1信息更新数据安全性验证上传节点数据集字典原子DCS-SOMPDCS-SOMPDCS-SOMP边缘1边缘2边缘n图2建立的云边协同框架Fig.2Established cloud-edge collaboration framework2.2非结构化大数据动态安全存储利用云边协同框架,采用分
19、布式压缩感知-同时正交匹配追踪(DCS-SOMP:D i s t r i b u t e d Co m p r e s s e dSensing-SimultaneousOrthogonal Matching Pursuit)算法对加密后不同类型的非结构化大数据进行压缩采集,并令同一分区中同一类型的节点大数据共同使用相同的字典原子。设定u为非结构化节点大数据的长度,则节点大数据的上传字典原子数量为T,有Y,D=Dpcs-SOMp(Xuxs,Ymxu,duxu,T),(10)mxsTXu其中Ymx为节点数据,Dxu为向云端上传的字典原子,Xuxs为原始数据,mxu为初始字典,uxu为节点矩阵。由
20、于云边协同框架受节点加密数据上传到云端及字典原子的影响,导致存储量上升,占据的存储空间大,所以需要调整边缘上的字典原子,令其成为完整的字典,即Dkxu,其中k为总原子数量。:以划分的非结构化大数据敏感等级为基准,计算各等级大数据所对应的稀疏表示系数,定义为0uxs=SsoMp(Ymxs,Dkxu,Ymxu)。(11)以获取的大数据ux.为主,完备云边协同框架中的云端字典,表示如下。1)在边缘节点中重新上传的字典原子及初始Dkx需要重新计算,定义为cov(d;,D,)(12)vard,+varD其中ri,,为原子相关度,vard,为字典原子,varD,为第k个原子。依据方程(12)可知,当ri.
21、值小于设定阈值时,说明上传后的结果相关性较低,应扩充字典原子,成为云端稀疏字典原子。韦蕊:基于边缘计算的非结构化大数据动态安全存储算法第3期5632)组合各个类型的加密节点数据上传的字典原子,形成过完备稀疏字典,进行正则化处理,减小不同数据字典原子的相关性。3)归一化处理过完备字典,并对原子更新。4)将非结构化加密大数据与过完备稀疏字典相结合,获取非结构化节点大数据所对应的稀疏系数,再将获取的非结构化质量数据用于存储数据,实现最终存储 9。根据建立的云端完备字典,将非结构化加密数据向云边协同框架的每个边缘上传即可实现对数据的动态安全存储,达到降低存储空间的目的,保证存储过程安全性。3实验与分析
22、为验证基于边缘计算的非结构化大数据动态安全存储算法的整体有效性,对该方法进行了实验对比测试。采用基于边缘计算的非结构化大数据动态安全存储算法(方法1)、地震信息网络数据的动态存储研究方法(方法2)和基于分布式压缩感知和边缘计算的配电网电能质量数据压缩存储方法(方法3)进行实验测试。1)由于非结构化大数据的数量较大,所以选取在一个周期范围内的非结构化大数据,采用上述3种方法分别对数据的存储量进行实验测试,存储量越高,说明需要占据的存储空间越大;存储量越低,说明占据的存储空间越小,能存储的数据越多。具体测试结果如图3所示。由图3可知,在整体测试期间,方法1的存储率最低,而方法2 的存储量最高。这是
23、因为方法1在存储数据时,压缩了需要存储的数据,缩小了需要占据的存储空间,降低了数据的存储量。2)非结构化大数据的元数据占比会对数据存储性能造成影响,元数据占比越大,则可节省的存储空间越少。所以为验证非结构化大数据占元数据大小的百分比,采用3种方法分别对元数据占比进行实验,测试3种方法的存储性能,结果如图4所示。方法110方法2方法3864203691215非结构大数据数量10/个图3非结构化大数据存储量对比测试Fig.33Unstructured big data storagecapacity comparison test方法!%1.0方法2方法30.80.60.40.203691215非
24、结构大数据数量10/个图4羊非结构化大数据的元数据占比测试Fig.4Metadata proportion test ofunstructured big data根据图4中的数据可知,3种方法的元数据占比会随着非结构大数据数量的增加而不断提升。经对比发现,数据的初始数量为30 0 个时,方法1的元数据占比低于其余两种方法,即使在后续数量不断增加的状态下,方法1的元数据占比依然保持最低。所以可以判定,方法1的元数据占比最小,能节省的存储空间最多。3)数据加密能保证数据在存储时的安全性及隐私性,而加密时所消耗的时间会影响数据的存储效率,为此,采用方法3种方法分别对数据的加密耗时进行测试,结果如表
25、1所示。分析表1中的数据可知,虽然3种方法整体加密耗时相差较小,但可以明显看出,方法2 的加密耗时最长,方法1的耗时最短,说明方法1的存储效率最快。4)数据在传输存储时会消耗大量带宽,加重了网络云端压力,为此利用3种方法测试数据在传输存储过程中的带宽消耗,验证数据是否能充分利用,结果如图5所示。第41卷吉林大学学报(信息科学版)564表13种方法的加密耗时测试Tab.1Encryption time-consuming test of three methods加密数据不同方法的加密耗时测试/s加密数据不同方法的加密耗时测试/s数量/个方法1方法2方法3数量/个方法1方法2方法31000.50
26、.80.66002.24.83.62001.01.61.27002.55.64.23001.52.41.88002.96.44.84001.73.22.49003.27.25.45002.04.03.0从图5可看出,数据在传输存储期间,方法1的带宽消耗低于方法2 及方法3,且测试中运动轨迹上升速度较慢。与方法1形成鲜明对比的是方法2 的运动轨迹上升速度快,带宽消耗最高,说明方法2 的数据在传输存储过程中,充分存储的效果最差。4 结 语敏感数据的数量过多会导致数据的安全存储效果差,为此,笔者提出基于边缘计算的非结构化大数据动态安全存储算法,对非结构化大数据进行了静态100方法1/方法280方法3
27、6040201012345数据量10/个图5数据带宽消耗对比测试Fig.5Data bandwidth consumptioncomparison test安全分析,便于对大数据节点类型的分类,根据分析结果确立敏感数据等级,并对此类数据加密,达到增强数据安全性的目的;将边缘计算与云端服务器相结合,构建一个存储架构,利用该架构实现对数据的动态安全存储。参考文献:1 李浩防火墙技术在计算机网络安全中的应用策略评网络攻防技术与实战深入理解信息安全防护体系J.安全与环境学报,2 0 2 1,2 1(3):138 1-138 2.LI H.Application Strategy of Firewall
28、 Technology in Computer Network Security-Comment on“Network Attack and DefenseTechnology and Actual Combat-in-Depth Understanding of Information Security Protection System J.Journal of Security andEnvironment,2021,21(3):1381-1382.2 陈晓刚.冶金工业控制系统计算机网络安全防护技术研究J.湿法冶金,2 0 2 1,40(6):52 7-532.CHEN X G.Rese
29、arch on Computer Network Security Protection Technology of Metallurgical Industry Control System J.Hydrometallurgy,2021,40(6):527-532.3 谢鹏,杨春成,熊顺,等基于HBase的空间矢量数据存储模型设计与优化J测绘学报,2 0 2 0,49(10):1365-1373.XIE P,YANG C C,XIONG S,et al.Design and Optimization of Spatial Vector Data Storage Model Based on
30、HBase JJ.Journal of Surveying and Mapping,2020,49(10):1365-1373.【4龚明明,叶伦强地震信息网络数据的动态存储方法研究J地震工程学报,2 0 2 0,42(4):10 43-10 48.CONG M M,YE L Q.A Dynamic Storage Method of Seismic Information Network Data J.Chinese Journal of EarthquakeEngineering,2020,42(4):1043-1048.5 高健,魏峻,许利杰,等基于预分区策略的装备数据分布式存储方法J计算
31、机科学与探索,2 0 2 1,15(1):96-108.GAO J,WEI J,XU L J,et al.Distributed Storage Method of Equipment Data Based on Pre-Partitioning Strategy J.Computer Science and Exploration,2021,15(1):96-108.【6 王鹤,李石强,于华楠,等。基于分布式压缩感知和边缘计算的配电网电能质量数据压缩存储方法J电工技术学报,2 0 2 0,35(2 1):4553-456 4.(责任编辑:刘东亮)第3期565韦蕊:基于边缘计算的非结构化大数据
32、动态安全存储算法WANG H,LI S Q,YU H N,et al.Compression Acquisition Method for Power Quality Data of Distribution Network Based onDistributed Compressed Sensing and Edge Computing J.Journal of Electrotechnical Technology,2020,35(21):4553-4564.【7 刘卓,王永基于二维耦合映像格子模型的图像压缩加密方案J重庆邮电大学学报(自然科学版),2 0 2 0,32(6):1048-1
33、057.LIU Z,WANG Y.Image Compression and Encryption Scheme Based on Two-Dimensional Coupled Image Lattice Model J.Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2020,32(6):1048-1057.8 刘福鑫,李劲巍,王熠弘,等基于Kubernetes的云原生海量数据存储系统设计与实现J计算机应用,2 0 2 0,40(2):547-552.LIU F
34、 X,LI J W,WANG Y H,et al.Design and Implementation of Cloud-Native Mass Data Storage System Based onKubernetes J.Computer Applications,2020,40(2):547-552.9 罗伟,饶冰,蒋破荒,等.基于X86的分布式存储的数据库平台架构J控制工程,2 0 2 0,2 7(2):30 3-30 8.LUO W,RAO B,JIANG P H,et al.X86-Based Distributed Storage Database Platform Architecture J.ControlEngineering,2020,27(2):303-308.