基于联邦学习的安全与隐私保护技术研究

资源描述

1、网络通信与安全本栏目责任编辑：代影Computer Knowledge and Technology电脑知识与技术第18卷第36期(2022年12月)第18卷第36期(2022年12月)基于联邦学习的安全与隐私保护技术研究吴彦霖，邱硕，柳亚男，张正（金陵科技学院软件工程学院网络安全学院，江苏南京 211169）摘要：联邦学习技术作为一种解决机器学习中数据孤岛问题的新兴技术，被广泛研究应用于人工智能和隐私计算中。随着数据隐私问题日益突出，这种分布式的联邦学习技术也面临着前所未有的敏感信息隐私泄露问题。文章依据现有工作，探索总结了联邦学习中主要面临的五大攻击威胁与三大隐私保护技术。最后，该文大

2、胆探索了联邦学习中未来面临的安全隐私挑战。关键词：联邦学习；隐私保护；安全威胁；差分隐私；数据加密中图分类号：TP311文献标识码：A文章编号：1009-3044(2022)36-0071-04开放科学（资源服务）标识码（OSID）:1 引言大数据时代的快速发展，机器学习创造了巨大的数据商业价值，如击败人类围棋高手的 AlphaGo。数据的分布式存储从一定程度上降低了数据的使用率。通过有效的数据共享，可大幅度提升机器学习训练的模型质量。但在很多领域，由于市场竞争和安全问题的限制，数据孤岛现象仍广泛存在。传统的机器学习，在计算能力，花费时间等方面上都存在着诸多问题，同时数据安全和隐私问题也面临着

3、巨大的挑战。如何共享并挖掘数据的价值，如何有效地保障用户隐私，成为数据共享中亟待解决的关键技术问题。2016年，Google 提出了联邦学习技术模型。用户在本地训练模型，将训练好的模型参数上传来取代原有的上传数据的方式，从而更好地保障数据的隐私问题。联邦学习技术被广泛应用于移动设备、工业生产以及医疗等领域，具有较大的运用价值1。同时，该技术能够与区块链技术巧妙结合，有效互补。如王等人2中描述的反恐情报体系，利用“区块链+联邦学习”模型，实现区块链情报共享架构和联邦学习情报协同架构，其中区块链实现开源数据的共享，可信传输，联邦学习实现隐私数据增值赋能，协同计算。联邦学习技术在广泛应用的过程中同时

4、面临着安全与隐私、通信带宽、系统效率、数据快速膨胀等诸多问题的阻碍。尤其是敏感数据的安全和隐私保护问题，是阻碍联邦学习技术发展的一大难题。为更好地研究与挖掘联邦学习技术中面临的问题，本文将基于现有研究成果，对联邦学习技术的基本概念、安全威胁以及相应技术方案梳理与总结，并重点归纳联邦学习技术中涉及的隐私保护问题。2 联邦学习基本概念以及应用为解决模型训练过程中因数据孤岛带来的数据匮乏问题，联邦学习概念诞生。具体来说，服务器统一向客户端发送训练模型，由客户端利用本地数据进行模型训练；然后，将训练模型发送给服务器，通过更新模型参数，完成一次训练迭代过程；经过多次迭代后，得到较优的训练模型。整个模型训

5、练过程中，数据经过加密后进行交换，保障了数据的隐私性。如图 1 所示，联邦学习的训练阶段包括3:图1 联邦学习训练模型图收稿日期：2022-05-16基金项目：本文由金陵科技学院高层次人次启动基金（JIT-B-201726）；2022年大学生创新训练计划项目（202213573020Z）；2020年江苏省“333工程”科研资助项目、金陵科技学院2020年度校级科研基金孵化项目作者简介：吴彦霖（2002），男，主要研究方向联邦学习安全、数据隐私保护；邱硕（1989），女，博士，讲师，主要研究方向为大数据隐私保护、云计算安全、应用密码学；柳亚男（1984），女，博士，讲师，主要研究方向为轻量级密码

6、协议、传感器网络密钥管理、组密钥管理等；张正（1973），男，本科，研究员，主要研究方向为网络安全、网络攻防技术。E-mail：http：/Tel：+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.18,No.36，December202271DOI:10.14004/ki.ckt.2022.2280本栏目责任编辑：代影网络通信与安全Computer Knowledge and Technology电脑知识与技术第18卷第36期(2022年12月)第18卷第36期(2022年12

7、月)（1）初始化：用户从中央服务器获取初始模型参数，同时确立好模型训练的目标。（2）模型训练：用户在本地利用隐私数据对模型进行训练，随后得到不同的本地模型，并将本地模型参数上传至中央服务器。（3）模型平均：中央服务器在接收模型参数后，通过对模型参数进行聚合和平均计算，得到一个新的模型，并再次下放模型到各个客户端。（4）模型迭代：重复上述的过程，模型会被不断完善，这一过程被称为迭代。联邦学习技术主要目的是建立一个基于分布数据集的联邦学习模型，这一技术包含了两个过程，分别是模型训练和模型推理。模型训练的过程中，以上传模型参数代替上传数据（例如：梯度），保证每个参与方的数据不被泄露，已训练完成的模型

8、可以被多方共享。3 联邦学习技术中的安全威胁3.1 攻击来源本文针对联邦学习技术中的漏洞来源进行总结分类，具体包括以下五种来源1：（1）通信协议：联邦学习随机选取客户端实现迭代过程，多轮训练中，不安全的通信渠道会造成隐私数据泄露。（2）客户端数据操作：数据来源于大量的客户端，攻击者可通过利用客户端的利用训练数据和模型数据访问全局模型，造成数据重构攻击。（3）受损的中央服务器：中央服务器负责共享初始模型参数，聚合本地模型和更新全局模型。这些服务器若存在漏洞易被攻击者利用。（4）弱聚合算法：聚合算法应具备识别可疑客户端的能力，并拥有相应配置来删除可疑客户端的数据更新。（5）联邦学习环境开发者：参与

9、 FL 环境架构的架构师，开发部署团队有意或者无意间造成数据的泄露。3.2 攻击分类联邦学习目前主要的攻击和威胁来源于内部实体。攻击者通常利用漏洞控制一个或者多个参与过程的客户端，实现控制全局模型的目的。具体总结以下五类攻击：（1）投毒攻击投毒攻击是发生可能性最大的攻击之一4-5，主要发生在训练阶段。攻击者通过对训练数据进行修改，或者植入恶意数据，修改本地数据模型来破坏全局模型的性能和准确性。针对投毒攻击的防御方法主要包括对抗训练、异常检测、知识蒸馏以及数据清理等。其中，对抗训练是通过在模型训练阶段预测攻击者可能的数据排列，增强学习模型的鲁棒性。Jagielski等人6中介绍了利用数据清理的防

10、御手段来抵御投毒攻击，达到了较好的效果。（2）推理攻击根据攻击来源不同，推理攻击主要分为：服务器端推理攻击与成员推理攻击。在服务器端推理攻击中，参与联邦学习要求所有用户利用本地数据训练全局模型并上传给中央服务器。此过程中存在一个非可信且知识丰富的服务器，无法保证用户的隐私数据信息。Wang等人7中通过周期性交换模型参数来计算用户训练样本的隐私内容，而这种攻击仅限于单纯的训练设置，并要求共享模型在同一个网络中。（3）基于生成式对抗网络（GAN）的攻击生成式对抗网络（GAN）由生成模块 G 和判别模块 D 组成。生成模块 G 利用接收到的随机噪声生成虚假样本，判别模块 D 用来判断样本是否为 G

11、生成的虚假样本。基于 GAN 的攻击可以发起投毒和推理攻击，对联邦学习环境的安全和隐私都可以造成影响。Hitai等人8提出了一种基于客户端的GAN重构攻击，由内部的恶意用户发起攻击。攻击者通过伪装合法用户，训练一个 GAN 模型用来模拟其他用户在本地训练出的样本，导致这些样本被错误标记，通过不断注入训练样本来更新全局模型，逐步影响整个联邦学习全局模型，诱导用户不断地泄露隐私信息。（4）女巫攻击训练过程中，恶意参与方通过伪造身份，控制大量的客户端设备，发起女巫攻击。同时，用户提供的参数会被混合平均，导致无法有效的区分恶意参数和正常参数，大大增加了抵御女巫攻击的难度。Fung等人9根据客户端更新信

12、息甄别投毒的女巫攻击，设计了一种FoolsGold防御方法。但该方法需同时存在较多攻击时防御效果才比较显著。（5）拜占庭攻击在拜占庭攻击中，攻击者控制多个用户向服务器发送任意参数（又被称为拜占庭梯度），以达到使全局模型在局部最优处收敛，乃至模型发散，使其偏离正常的训练过程。攻击者可以监视任何服务器或任何诚实的计算节点，并精心设计拜占庭梯度值，使其和正确梯度难以区分。同时恶意节点可以控制计算节点设备（客户端）本身，也可以控制节点和服务器之间的通信。Bhagoji等人10提出通过冗余和数据洗牌的更新防御机制来防御拜占庭攻击，但该机制通常需要严格的理论保证，且需要一定的前提假设，如假设服务器能够直接

13、访问数据，导致这种方法缺乏实际可行性。4 联邦学习中的隐私保护技术针对联邦学习中存在的各种攻击威胁，主要采用72网络通信与安全本栏目责任编辑：代影Computer Knowledge and Technology电脑知识与技术第18卷第36期(2022年12月)第18卷第36期(2022年12月)的应对方法总结为以下三种。（1）差分隐私技术为了避免逆向数据检索，引入差分隐私技术。具体思想：给个人样本的私有敏感属性添加随机噪声（如拉普拉斯噪声等），使攻击者无法判断某一样本是否在数据集中，以保护用户隐私。而添加噪声，会造成精度降低的问题。因此，该技术更适用于处理数据量规模较大的数据集。Triast

14、cyn 等人11利用贝叶斯差分隐私实现模型训练及模型发布时的隐私保护。Bun M 等人12利用线性上限 a()对梯度进行剪辑，限制参与方数据对全局更新模型参数的影响。该方案无法较好地平衡安全性与性能。Truex 等13利用客户端在本地扰动数据，(n,t)-Paillier 加密来聚合扰动后数据的方式有效保护隐私，但该方法训练耗时久和通信开销较大。（2）同态加密技术联邦学习模型中的训练数据来自多个不同的客户端，需要确保数据源的隐私信息不被泄露。同态加密技术支持在密文上进行数据操作，保证数据隐私性的前提下可将密文计算委托给第三方完成，为计算能力不足的客户端提供了便利。Hardy等人14结合实体解析

15、和同态加密，实现了对纵向分布数据进行联邦学习。Zhang等人15利用加法同态加密技术实现密文数据的批量处理，保证隐私的同时提升了联邦学习效率。Fang与Ma等工作16-17结合多功能同态加密技术实现联邦学习中的数据隐私保护。（3）安全多方计算在安全多方计算中，多个参与方之间可协同完成某个计算任务，同时不泄漏任何隐私数据信息给其他参与方。应用中通常以两方安全协议与多方秘密共享协议为基础，再结合同态加密技术实现对数据的保护。大部分同态加密算法效率无法适用于大规模数据加密，而联邦学习模型中仅需要对模型参数进行加密即可，因此大大减少了加解密的计算复杂度。Wu等人18结合多方秘密共享与同态加密提供了一种

16、Pivot的方法，整个过程不会泄漏数据隐私信息给各个参与方。但该方法需要多次的信息交互，带来的通信代价会成为模型训练中的瓶颈问题。以上描述的三种联邦学习隐私保护技术，各有其利弊。在实际运用中，三种技术相互结合可以达到较好的效果，如Zhang等人19提出了一种基于差分隐私和同态加密的强隐私保护联邦学习算法，高效地解决了联邦学习中数据隐私保护问题。5 分析与展望据上所述，本文总结分析了现有联邦学习中的攻击威胁与隐私保护技术。随着联邦学习技术被广泛应用20,21，在研究过程中，依然存在一些可以继续探索的方向：（1）如何更好地实现隐私保护开销和联邦学习效率之间的平衡。需要选择合适的加密算法与所加入的噪声量，过量的加密保护和噪声加入会造成模型精度的损失以及增加计算开支。（2）跟踪全局机器学习模型是联邦学习技术中的一个瓶颈，如结合新型区块链技术。因此，实现整个训练模型的跟踪是可继续探索的一个研究方向。（3）联邦学习技术需要详细分析用不同方法标记的所有优缺点，也需要定义标准化的技术来支持不同领域的联邦学习的新需求，同时增强数据的隐私保护。6 总结联邦学习作为一种由人工智能和隐私保护相融衍生的技术，其

展开阅读全文

基于联邦学习的安全与隐私保护技术研究_吴彦霖.pdf